Yapay zeka alanında sahte haber tespiti için geliştirilen geleneksel test sistemleri, günümüzün hızla gelişen büyük dil modellerinin gerçek performansını ölçmekte yetersiz kalıyor. Bu soruna çözüm bulmak için araştırmacılar, LiveFact adında yenilikçi bir değerlendirme sistemi tasarladı.
LiveFact'in en büyük özelliği, statik test verilerinin aksine sürekli güncellenen dinamik bir yapıya sahip olması. Bu sistem, gerçek dünyada yaşanan bilgi karmaşasını simüle ederek yapay zekanın eksik ve sürekli değişen bilgilerle nasıl başa çıktığını test ediyor. Araştırmacılar bu durumu 'savaş sisi' metaforuyla açıklayarak, belirsizlik ortamında karar verme süreçlerini değerlendirmenin önemini vurguluyor.
Sistem iki farklı değerlendirme modu sunuyor: nihai doğrulama için Sınıflandırma Modu ve kanıt temelli akıl yürütme için Çıkarım Modu. Ayrıca, test verilerinin kirlenme durumunu da izleyebilen özel bir bileşen içeriyor.
22 farklı büyük dil modeliyle gerçekleştirilen kapsamlı testlerde, açık kaynaklı Mixture-of-Experts modellerinin öne çıktığı gözlemlendi. Bu bulgular, sahte haber tespitinde hangi model türlerinin daha etkili olabileceği konusunda önemli ipuçları veriyor.