Yapay zeka sorularının yarısını tam anlayamıyor: Belirsiz sorular büyük sorun

Stanford ve Princeton araştırmacıları, büyük dil modellerinin neden bazı sorularda başarısız olduğunu araştırdı. Çalışma, QA veri setlerindeki soruların %16-50'sinin 'yetersiz tanımlanmış' olduğunu ortaya koydu. Bu sorular ek bağlam olmadan net bir şekilde yorumlanamıyor. Örneğin 'Championship'teki en zengin kulüp hangisi?' sorusu hangi spor dalından bahsettiğini belirtmiyor. Araştırmacılar belirsiz soruları daha net hale getirdiklerinde yapay zeka performansının önemli ölçüde arttığını gözlemledi. Bu bulgular, yapay zeka sistemlerinin görünür başarısızlıklarının aslında model yetersizliğinden ziyade soru belirsizliğinden kaynaklandığını gösteriyor.

Yapay zeka alanında önemli bir keşif yapan araştırmacılar, büyük dil modellerinin soru-cevap görevlerindeki başarısızlıklarının büyük bir bölümünün aslında soruların belirsizliğinden kaynaklandığını ortaya koydu.

Çalışmada araştırmacılar, yaygın kullanılan QA veri setlerini analiz ederek şaşırtıcı bir gerçeği keşfetti: Bu veri setlerindeki soruların %16 ila %50'si 'yetersiz tanımlanmış' kategorisine giriyor. Yetersiz tanımlanmış sorular, ek bağlam bilgisi olmadan kesin bir yoruma ulaşılamayan sorulardır.

Araştırma ekibi, belirsiz soruları tespit etmek için özel bir LLM tabanlı sınıflandırıcı geliştirdi. Test sonuçları, yapay zeka modellerinin bu belirsiz sorularda performanslarının belirgin şekilde düştüğünü gösterdi.

Daha da ilginç olan bulguysa şu: Araştırmacılar belirsiz soruları daha net ve tam tanımlanmış versiyonlarla yeniden yazdıklarında, doğru cevapları değiştirmeden sadece soru netliğini artırarak, QA sistemlerinin performansı tutarlı bir şekilde iyileşti.

Bu çalışma, yapay zeka sistemlerinin görünürdeki yetersizliklerinin aslında veri kalitesi ve soru formülasyonu problemlerinden kaynaklanabileceğini gösteriyor. Bulgular, gelecekteki QA sistemlerinin geliştirilmesinde soru belirsizliği faktörünün dikkate alınması gerektiğine işaret ediyor.