Yapay zeka destekli programlama araçlarının hızla benimsendiği günümüzde, AI tarafından üretilen kodları insan tarafından yazılanlardan ayırt etmek giderek zorlaşıyor. Bu durum özellikle eğitim kurumlarında akademik dürüstlük, yazılım şirketlerinde kalite kontrolü ve siber güvenlik alanlarında ciddi endişelere yol açıyor.
Araştırmacılar bu soruna çözüm bulmak için LLMSniffer adlı gelişmiş bir tespit sistemi geliştirdi. Sistem, kod yapısını anlayan GraphCodeBERT modelini temel alıyor ve iki aşamalı bir kontrastlı öğrenme süreci kullanıyor. İlginç bir yaklaşımla, kodlardaki yorumları önceden temizleyerek daha net analizler yapabiliyor.
Test sonuçları oldukça etkileyici. GPTSniffer benchmark veri setinde doğruluk oranı %70'den %78'e çıkarken, F1 skoru da aynı oranda iyileşti. Whodunit veri setinde ise başarı oranı %91'den %94.65'e yükseldi. Araştırmacılar, t-SNE görselleştirmeleri ile kontrastlı öğrenmenin kod örneklerini net şekilde ayrıştırdığını da gösterdi.
Ekip, model kontrol noktalarını, veri setlerini ve kodları açık kaynak olarak paylaştı. Ayrıca canlı bir demo da sunarak diğer araştırmacıların bu alanda çalışmalarını sürdürmesine katkıda bulunmayı hedefliyor.