Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin okuma anlama kapasitelerini değerlendiren çığır açıcı bir test sistemi geliştirdi. Text2DistBench adlı bu yeni benchmark, AI'ların sadece spesifik bilgileri bulma değil, aynı zamanda büyük metin koleksiyonlarındaki genel eğilimleri anlayabilme yeteneklerini de ölçüyor.
Geleneksel AI testleri genellikle metinde doğrudan yer alan bilgileri bulma üzerine odaklanıyor. Ancak gerçek dünyada AI sistemlerinin, toplumsal görüşler, popülasyon trendleri ve kolektif tercihler gibi daha karmaşık dağılımsal bilgileri anlaması gerekiyor. Yeni test sistemi, bu açığı kapatmayı hedefliyor.
Araştırma ekibi, film ve müzik hakkındaki gerçek YouTube yorumlarını kullanarak bir veri seti oluşturdu. AI modelleri bu yorumları analiz ederek, pozitif-negatif yorum oranlarını tahmin etmek, en sık tartışılan konuları belirlemek gibi görevleri yerine getirmeye çalışıyor.
İlk test sonuçları, mevcut büyük dil modellerinin bu tür dağılımsal analizlerde beklenenden düşük performans gösterdiğini ortaya koydu. Bu bulgu, AI'ların toplumsal verileri anlama konusundaki sınırlarını gözler önüne seriyor ve gelecekteki geliştirme alanlarını işaret ediyor.