Yapay Zeka Testlerindeki Büyük Sorun: Benchmark Araçları Yanıltıyor

Araştırmacılar, yapay zeka modellerinin performansını ölçmek için kullanılan çoktan seçmeli test sistemlerinde ciddi kalite sorunları tespit etti. BenchMarker adlı yeni araç, 12 farklı test sistemini inceledi ve şaşırtıcı sonuçlar ortaya çıkardı. Testlerin yarısının internette aynen bulunabildiği, bazılarının tamamen hatalı kurallara sahip olduğu belirlendi. Bu durum, AI modellerinin gerçek performansının yanlış değerlendirilmesine yol açıyor. Özellikle otomatik oluşturulan ve kitlesel kaynak kullanımıyla hazırlanan testlerde sorunlar daha yaygın görülüyor.

Yapay zeka alanında model performansını ölçmek için kullanılan çoktan seçmeli testlerde kritik kalite sorunları tespit edildi. Araştırmacılar, eğitim bilimlerinden ilham alarak geliştirdikleri BenchMarker aracıyla bu sorunları ortaya çıkardı.

Araç, üç temel sorunu tespit etmek için tasarlandı: Birincisi kontaminasyon - test sorularının internette aynen bulunması durumu. İkincisi kestirme yollar - şıklardaki ipuçlarının doğru cevabı ele vermesi. Üçüncüsü ise yapısal ve dilbilgisel hatalar - eğitim alanında kullanılan 19 kurallı rubriğe dayalı yazım sorunları.

12 farklı benchmark sisteminin incelenmesi şoke edici sonuçlar verdi. TruthfulQA testinin %47'sinin internette aynen bulunduğu, HellaSwag testinin ise %100 oranında yazım kurallarını ihlal ettiği belirlendi. Özellikle otomatik oluşturulan ve kitle kaynaklı verilerle hazırlanan testlerde sorunlar daha yaygın görülüyor.

Araştırma, kontamine olmuş soruların yapay zeka modellerinin doğruluk oranlarını yapay olarak yükselttiğini, yazım hatalarının ise performansı düşürdüğünü ve sıralamalar üzerinde rastgele etkiler yarattığını gösterdi. Bu bulgular, AI model değerlendirmelerinin güvenilirliği konusunda ciddi endişeler yaratıyor.