Yapay zeka alanında önemli bir keşif yapan araştırmacılar, büyük dil modellerinin soru-cevap görevlerindeki başarısızlıklarının büyük bir bölümünün aslında soruların belirsizliğinden kaynaklandığını ortaya koydu.
Çalışmada araştırmacılar, yaygın kullanılan QA veri setlerini analiz ederek şaşırtıcı bir gerçeği keşfetti: Bu veri setlerindeki soruların %16 ila %50'si 'yetersiz tanımlanmış' kategorisine giriyor. Yetersiz tanımlanmış sorular, ek bağlam bilgisi olmadan kesin bir yoruma ulaşılamayan sorulardır.
Araştırma ekibi, belirsiz soruları tespit etmek için özel bir LLM tabanlı sınıflandırıcı geliştirdi. Test sonuçları, yapay zeka modellerinin bu belirsiz sorularda performanslarının belirgin şekilde düştüğünü gösterdi.
Daha da ilginç olan bulguysa şu: Araştırmacılar belirsiz soruları daha net ve tam tanımlanmış versiyonlarla yeniden yazdıklarında, doğru cevapları değiştirmeden sadece soru netliğini artırarak, QA sistemlerinin performansı tutarlı bir şekilde iyileşti.
Bu çalışma, yapay zeka sistemlerinin görünürdeki yetersizliklerinin aslında veri kalitesi ve soru formülasyonu problemlerinden kaynaklanabileceğini gösteriyor. Bulgular, gelecekteki QA sistemlerinin geliştirilmesinde soru belirsizliği faktörünün dikkate alınması gerektiğine işaret ediyor.