Yapay zeka alanında araç kullanabilen büyük dil modellerinin değerlendirilmesi konusunda önemli bir güvenilirlik sorunu ortaya çıktı. Araştırmacılar, bu sistemlerin performansını ölçmek için yaygın olarak kullanılan otomatik değerlendirme yöntemlerinin ne kadar güvenilir olduğunu ilk kez kapsamlı şekilde inceledi.

AgentProp-Bench adı verilen yeni kıyaslama sistemi, dört farklı alanda 2000 görev ve 9 farklı ticari yapay zeka modelinden elde edilen 2300 iz kaydını analiz etti. 100 etiketlik alt küme ise insan uzmanlar tarafından doğrulandı. Sonuçlar, mevcut değerlendirme yöntemlerinin düşündüğümüzden çok daha sorunlu olduğunu gösterdi.

En çarpıcı bulgu, yaygın kullanılan metin karşılaştırma yöntemlerinin insan değerlendirmenleriyle neredeyse hiç uyuşmadığı oldu. Bu yöntemler, tesadüf seviyesinde sonuçlar veriyordu. Üç farklı yapay zeka modelinin birlikte kullanılmasıyla orta düzeyde güvenilirlik elde edilebilse de, sistem muhafazakar bir önyargı gösteriyordu.

Araştırma ayrıca hata yayılımı konusuna da odaklandı. Parametre seviyesindeki bir hatanın yaklaşık 0.62 olasılıkla yanlış nihai sonuçlara yol açtığı belirlendi. İlginç bir şekilde, hataları tespit etme ve düzeltme yeteneklerinin birbirinden bağımsız olduğu da ortaya çıktı.

Bu bulgular, yapay zeka ajanlarının gerçek performansını değerlendirmek için daha sofistike ve güvenilir yöntemlere acil ihtiyaç olduğunu gösteriyor.