Yapay Zeka Aracı Değerlendirmelerinin Güvenilirliği Sorgulanıyor

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (Dilbilim & NLP)

Paylaş: Kopyalandı!

Araç kullanan büyük dil modellerinin (LLM) otomatik değerlendirmelerinin güvenilirliği ilk kez kapsamlı şekilde incelendi. AgentProp-Bench adlı 2000 görevlik kıyaslama çalışması, mevcut değerlendirme yöntemlerinin insan değerlendirmeleriyle büyük ölçüde uyumsuz olduğunu ortaya koydu. Basit metin karşılaştırma yöntemleri neredeyse tesadüf seviyesinde sonuçlar verirken, üç farklı yapay zeka modelinin birlikte kullanılması orta düzeyde güvenilirlik sağladı. Araştırma, hatalı parametrelerin sistemde nasıl yayıldığını ve son sonuçları nasıl etkilediğini de analiz etti. Bulgular, yapay zeka ajanlarının performansını değerlendirmek için daha güvenilir yöntemlere ihtiyaç duyulduğunu gösteriyor.

Yapay zeka alanında araç kullanabilen büyük dil modellerinin değerlendirilmesi konusunda önemli bir güvenilirlik sorunu ortaya çıktı. Araştırmacılar, bu sistemlerin performansını ölçmek için yaygın olarak kullanılan otomatik değerlendirme yöntemlerinin ne kadar güvenilir olduğunu ilk kez kapsamlı şekilde inceledi.

AgentProp-Bench adı verilen yeni kıyaslama sistemi, dört farklı alanda 2000 görev ve 9 farklı ticari yapay zeka modelinden elde edilen 2300 iz kaydını analiz etti. 100 etiketlik alt küme ise insan uzmanlar tarafından doğrulandı. Sonuçlar, mevcut değerlendirme yöntemlerinin düşündüğümüzden çok daha sorunlu olduğunu gösterdi.

En çarpıcı bulgu, yaygın kullanılan metin karşılaştırma yöntemlerinin insan değerlendirmenleriyle neredeyse hiç uyuşmadığı oldu. Bu yöntemler, tesadüf seviyesinde sonuçlar veriyordu. Üç farklı yapay zeka modelinin birlikte kullanılmasıyla orta düzeyde güvenilirlik elde edilebilse de, sistem muhafazakar bir önyargı gösteriyordu.

Araştırma ayrıca hata yayılımı konusuna da odaklandı. Parametre seviyesindeki bir hatanın yaklaşık 0.62 olasılıkla yanlış nihai sonuçlara yol açtığı belirlendi. İlginç bir şekilde, hataları tespit etme ve düzeltme yeteneklerinin birbirinden bağımsız olduğu da ortaya çıktı.

Bu bulgular, yapay zeka ajanlarının gerçek performansını değerlendirmek için daha sofistike ve güvenilir yöntemlere acil ihtiyaç olduğunu gösteriyor.

Etiketler

#yapay zeka #büyük dil modeli #performans değerlendirmesi #güvenilirlik #hata analizi

Özgün Kaynak

Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench

https://arxiv.org/abs/2604.16706

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.