Yapay zeka alanında önemli bir keşif ortaya çıktı: Hem görsel hem de dil verisiyle eğitilen modellerin, insan beyninin metin okuma süreçlerini taklit etmede sadece metinle eğitilen modellerden daha başarılı olmadığı belirlendi.

Araştırmacılar bu çalışmada, büyük dil modellerini (LLM) görsel-dil modelleriyle (VLM) karşılaştırdı. Önemli olan nokta, karşılaştırmanın tamamen metin tabanlı bir ortamda yapılması oldu - böylece multimodal eğitimin etkisi izole edilebilmiş oldu.

Çalışmada insan katılımcıların doğal okuma süreçleri sırasında çekilen beyin görüntüleme verileri ve eş zamanlı göz hareketleri takip edildi. Bu veriler daha sonra yapay zeka modellerinin performansıyla karşılaştırıldı.

Sonuçlar şaşırtıcıydı: Multimodal önceden eğitim, doğal okuma sırasında insan uyumunda genel ve tekdüze bir avantaj sağlamadı. Bu durum, insan metin işlemesini modellemek için dil içi temsillerin hâlâ temel faktör olduğunu gösteriyor.

Araştırmanın önemli bulgusu, görsel-dil modellerinin avantajının daha seçici koşullarda ortaya çıkabileceğini işaret ediyor. Bu keşif, gelecekteki yapay zeka geliştirme stratejilerinde önemli bir referans noktası oluşturuyor.