Yapay zeka alanında önemli bir keşif yapan araştırmacılar, büyük dil modellerinin mantıksal düşünme konusunda insanlara benzer hatalar yaptığını ortaya çıkardı. Stanford Üniversitesi'nden bilim insanları, AI sistemlerinin mantıksal geçerlilik ile inandırıcılığı ayırt etmekte zorlandığını keşfetti.
Araştırma, 'içerik etkisi' adı verilen fenomene odaklanıyor. Bu etki, bir argümanın mantıksal yapısından ziyade içeriğinin ne kadar inandırıcı geldiğinin, doğruluk değerlendirmesini etkilemesi anlamına geliyor. İnsanlarda bu durum ikili süreç teorisiyle açıklanırken, yapay zeka modellerindeki mekanizma şimdiye kadar belirsizdi.
Bilim insanları, LLM'lerin iç temsillerini analiz ederek çığır açan bulgulara ulaştı. Geçerlilik ve inandırıcılık kavramlarının modelin representasyonel geometrisinde güçlü bir şekilde hizalandığını, bu nedenle sistemin bu iki farklı kavramı karıştırdığını gösterdiler.
Özellikle dikkat çekici olan, 'yönlendirme vektörleri' kullanarak yapılan deneyler oldu. Araştırmacılar, inandırıcılık vektörlerinin geçerlilik yargılarını etkileyebildiğini ve tam tersinin de mümkün olduğunu kanıtladı. Bu iki kavram arasındaki hizalanma derecesi, modellerdeki davranışsal içerik etkilerinin büyüklüğünü önceden tahmin edebiliyor.
Çalışma, AI sistemlerinin mantıksal muhakeme yeteneklerini geliştirmek için yeni yollar açıyor ve önyargı giderici vektörlerin geliştirilmesine olanak sağlıyor.