Yapay zeka teknolojisindeki hızlı gelişmeler, görsel-dil modellerinin (VLM) performansını önemli ölçüde artırdı. Ancak bu modellerin gerçekten işledikleri içeriği anlayıp anlamadığı kritik bir soru olarak karşımızda duruyor.
Araştırmacılar bu soruyu yanıtlamak için MMErroR adlı yeni bir benchmark geliştirdi. Bu test sistemi, yapay zeka modellerinin yanlış muhakeme süreçlerini fark edip hata türlerini doğru şekilde sınıflandırma becerilerini ölçüyor.
MMErroR, altı ana kategoride 24 farklı alt alana yayılmış 1997 örnek içeriyor. Her örnek, kasıtlı olarak yerleştirilmiş tutarlı bir mantık hatası barındırıyor. Bu yaklaşım, mevcut testlerden önemli bir farkla ayrılıyor: Sadece doğru cevap verip vermediğine bakmak yerine, muhakeme sürecindeki hataları tespit etme yetisini değerlendiriyor.
On iki farklı yapay zeka modeli üzerinde yapılan testlerde, en başarılı performans sergileyen Gemini-3-Pro-Preview bile hataları sadece %66,65 oranında doğru sınıflandırabildi. Bu sonuç, gelişmiş yapay zeka modellerinin bile mantık hatalarını tespit etmekte zorlandığını gösteriyor.
Bu bulgular, yapay zekanın gerçek anlayış kapasitesi konusunda önemli sorular ortaya çıkarıyor. Modellerin görsel ve dilsel bağlamlardaki hatalı muhakeme süreçlerini tespit etmedeki yetersizliği, bu teknolojilerin sınırlarını açıkça ortaya koyuyor.