Yapay Zeka Görsel Zeka Testlerinde İnsanların Yarısı Kadar Başarılı

Araştırmacılar, çok modlu büyük dil modellerinin (MLLM) görsel-bilişsel yeteneklerini test etmek için 'Mind's Eye' adlı yeni bir değerlendirme sistemi geliştirdi. Klasik insan zeka testlerinden esinlenen bu sistem, soyutlama, ilişki kurma ve dönüştürme kategorilerinde sekiz farklı görsel görev içeriyor. Test sonuçları, insanların %80 başarı oranına ulaştığı bu görevlerde en iyi performans gösteren yapay zeka modellerinin %50'nin altında kaldığını ortaya koydu. Bu çalışma, mevcut yapay zeka sistemlerinin görsel dikkat dağıtımı, zihinsel manipülasyon ve soyut kavram çıkarımı konularında önemli eksiklikleri olduğunu gösteriyor.

Yapay zeka alanında görsel-dil modellerinin yetenekleri sürekli gelişse de, bu sistemlerin görsel düşünme ve uzaysal akıl yürütme kapasiteleri henüz tam olarak anlaşılmamış durumda. Stanford Üniversitesi araştırmacıları, bu boşluğu doldurmak için geliştirdikleri 'Mind's Eye' benchmark'ı ile çarpıcı sonuçlar elde etti.

Araştırma ekibi, klasik insan zeka testlerinden ilham alarak üç ana kategori altında sekiz görsel-bilişsel görev tasarladı: Soyutlama (Abstraction), İlişki (Relation) ve Dönüştürme (Transformation). Bu A-R-T taksonomisi, akışkan zekanın temel süreçlerini test ediyor - örüntü tespiti, analojik ilişki kurma ve zihinsel dönüştürme gibi.

Hem kapalı kaynak hem de açık kaynak çok modlu büyük dil modelleri (MLLM) üzerinde yapılan kapsamlı testlerde şaşırtıcı bir sonuç ortaya çıktı. İnsan katılımcılar bu görevlerde %80 başarı oranına ulaşırken, en başarılı yapay zeka modelleri bile %50'nin altında performans gösterdi.

Hata analizleri, mevcut modellerin üç kritik alanda yetersiz kaldığını ortaya koydu: görsel dikkati doğru alanlara yöneltmede başarısızlık, zihinsel olarak görsel bilgiyi manipüle etmede güçlük ve görsel kavramları soyutlamada zayıflık. Bu bulgular, yapay zeka sistemlerinin insan benzeri görsel akıl yürütme yeteneklerini kazanması için daha fazla araştırmaya ihtiyaç olduğunu gösteriyor.

Yapay Zeka Görsel Zeka Testlerinde İnsanların Yarısı Kadar Başarılı

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor