Yapay zeka alanında model performansını ölçmek için kullanılan çoktan seçmeli testlerde kritik kalite sorunları tespit edildi. Araştırmacılar, eğitim bilimlerinden ilham alarak geliştirdikleri BenchMarker aracıyla bu sorunları ortaya çıkardı.
Araç, üç temel sorunu tespit etmek için tasarlandı: Birincisi kontaminasyon - test sorularının internette aynen bulunması durumu. İkincisi kestirme yollar - şıklardaki ipuçlarının doğru cevabı ele vermesi. Üçüncüsü ise yapısal ve dilbilgisel hatalar - eğitim alanında kullanılan 19 kurallı rubriğe dayalı yazım sorunları.
12 farklı benchmark sisteminin incelenmesi şoke edici sonuçlar verdi. TruthfulQA testinin %47'sinin internette aynen bulunduğu, HellaSwag testinin ise %100 oranında yazım kurallarını ihlal ettiği belirlendi. Özellikle otomatik oluşturulan ve kitle kaynaklı verilerle hazırlanan testlerde sorunlar daha yaygın görülüyor.
Araştırma, kontamine olmuş soruların yapay zeka modellerinin doğruluk oranlarını yapay olarak yükselttiğini, yazım hatalarının ise performansı düşürdüğünü ve sıralamalar üzerinde rastgele etkiler yarattığını gösterdi. Bu bulgular, AI model değerlendirmelerinin güvenilirliği konusunda ciddi endişeler yaratıyor.