Yapay zeka alanında küçük dil modelleri giderek daha karmaşık mantık yürütme görevlerinde başarı gösterse de, bu başarının ardındaki süreçler şimdiye kadar yeterince incelenmiyordu. Araştırmacılar, bu eksikliği gidermek için ReTraceQA adlı yenilikçi bir değerlendirme sistemi geliştirdi.
Geleneksel testler yalnızca yapay zekanın verdiği final cevabın doğru olup olmadığına bakıyordu. Ancak yeni araştırma, bu yaklaşımın yanıltıcı olabileceğini gösteriyor. Uzmanlar tarafından hazırlanan veri seti analiz edildiğinde, küçük dil modellerinin örneklerin %14-24'ünde hatalı mantık yürütme süreçleri kullanmasına rağmen doğru sonuçlara ulaşabildiği ortaya çıktı.
Bu bulgu, mevcut değerlendirme yöntemlerinin yapay zeka modellerinin gerçek yeteneklerini abarttığını gösteriyor. Araştırmacılar, güçlü büyük dil modellerini otomatik hakemler olarak kullanarak mantık yürütme süreçlerini değerlendirdiğinde, küçük modellerin performansının önemli ölçüde düştüğünü gözlemledi.
ReTraceQA sistemi, sadece 'doğru mu yanlış mı' sorusunun ötesine geçerek 'nasıl düşündü' sorusuna da cevap arıyor. Bu yaklaşım, yapay zeka modellerinin güvenilirliği ve şeffaflığı açısından kritik öneme sahip. Özellikle karar verme süreçlerinde kullanılacak AI sistemleri için, doğru sonuca nasıl ulaşıldığını anlamak hayati önem taşıyor.