Yapay zeka modellerinin doğal dil komutlarını SQL sorgularına çevirmedeki başarıları, göründüğü kadar gerçek olmayabilir. Yeni bir araştırma, bu modellerin eğitim sırasında benzer sorularla karşılaştığı için testlerde haksız avantaj elde ettiğini ortaya koyuyor.
Araştırmacılar, SPENCE (Syntactic Probing and Evaluation of NL2SQL Contamination Effects) adlı yenilikçi bir test sistemi geliştirdi. Bu sistem, Spider, SParC, CoSQL ve BIRD gibi yaygın kullanılan veri tabanlarındaki test sorularının farklı versiyonlarını oluşturuyor ve modellerin performansını ölçüyor.
Test sonuçları dikkat çekici. Modeller, orijinal sorularda yüksek başarı gösterirken, aynı mantığa sahip ancak farklı ifade edilmiş sorularda performansları düşüyor. Bu durum, modellerin gerçekten anlama yerine ezberden hareket ettiğini gösteriyor.
Araştırma ekibi, çeşitli büyük dil modellerini inceledi ve tümünde benzer eğilimler tespit etti. Özellikle, benchmark veri setlerinin yayınlanma tarihleri ile modellerin performans düşüşleri arasında net bir korelasyon bulundu.
Bu bulgular, yapay zeka alanında performans değerlendirmelerinin ne kadar güvenilir olduğu sorusunu gündeme getiriyor. Uzmanlar, gelecekte daha adil ve yanıltıcı olmayan test yöntemlerinin geliştirilmesi gerektiğini vurguluyor.