Yapay zeka sistemlerinin duygu analizi yetenekleri üzerine yapılan kapsamlı bir araştırma, bu teknolojilerin önemli bir zayıflığını gözler önüne seriyor. Büyük dil modellerinin (LLM) insan duygularını değerlendirirken kritik bir noktayı gözden kaçırdığı ortaya çıktı.
Araştırmacılar, insanların metinlerdeki duyguları değerlendirirken sıklıkla farklı görüşlere sahip olduğunu ve bu anlaşmazlıkların aslında duyguların doğasında var olan belirsizliği yansıttığını vurguluyor. Ancak mevcut yapay zeka değerlendirmeleri bu çeşitliliği tek bir 'altın standart' etikete indirgiyor.
GoEmotions ve EmoBank veri setleri üzerinde yapılan analiz, dört farklı sıfır-atış LLM modeli ve özel eğitimli RoBERTa modelinden toplam 640 bin yanıt inceledi. Sonuçlar, sıfır-atış modellerin insan duygu dağılımlarından önemli ölçüde saptığını gösterdi.
Araştırma, model büyüklüğünün değil, alan-içi özel eğitimin bu açığı kapatmak için gerekli olduğunu ortaya koydu. Özellikle LLM'lerin açık sözcüksel işaretlere sahip duyguları güvenilir şekilde yakaladığı, ancak pragmatik olarak karmaşık duygularda sistematik olarak başarısız olduğu tespit edildi.
Bu bulgular, yapay zekanın insan duygularını anlama konusundaki mevcut sınırlarını ortaya koyarak, gelecekteki geliştirmeler için önemli bir yol haritası sunuyor.