Yapay zeka alanında görsel-dil modellerinin yetenekleri sürekli gelişse de, bu sistemlerin görsel düşünme ve uzaysal akıl yürütme kapasiteleri henüz tam olarak anlaşılmamış durumda. Stanford Üniversitesi araştırmacıları, bu boşluğu doldurmak için geliştirdikleri 'Mind's Eye' benchmark'ı ile çarpıcı sonuçlar elde etti.
Araştırma ekibi, klasik insan zeka testlerinden ilham alarak üç ana kategori altında sekiz görsel-bilişsel görev tasarladı: Soyutlama (Abstraction), İlişki (Relation) ve Dönüştürme (Transformation). Bu A-R-T taksonomisi, akışkan zekanın temel süreçlerini test ediyor - örüntü tespiti, analojik ilişki kurma ve zihinsel dönüştürme gibi.
Hem kapalı kaynak hem de açık kaynak çok modlu büyük dil modelleri (MLLM) üzerinde yapılan kapsamlı testlerde şaşırtıcı bir sonuç ortaya çıktı. İnsan katılımcılar bu görevlerde %80 başarı oranına ulaşırken, en başarılı yapay zeka modelleri bile %50'nin altında performans gösterdi.
Hata analizleri, mevcut modellerin üç kritik alanda yetersiz kaldığını ortaya koydu: görsel dikkati doğru alanlara yöneltmede başarısızlık, zihinsel olarak görsel bilgiyi manipüle etmede güçlük ve görsel kavramları soyutlamada zayıflık. Bu bulgular, yapay zeka sistemlerinin insan benzeri görsel akıl yürütme yeteneklerini kazanması için daha fazla araştırmaya ihtiyaç olduğunu gösteriyor.