Yapay zeka modelleri kendi hatalarını fark edebiliyor mu? Yeni test şaşırtıyor

Görsel-dil yapay zeka modellerinin gerçekten anlayıp anlamadığı uzun süredir merak konusu. Araştırmacılar, bu modellerin yanlış muhakeme süreçlerini tespit edip hata türlerini ayırt edebilme becerilerini ölçen yeni bir benchmark geliştirdi. MMErroR adlı bu test, 24 farklı alt alanda 1997 örnek içeriyor ve her birinde tutarlı bir mantık hatası bulunuyor. Test sonuçları oldukça çarpıcı: En başarılı model olan Gemini-3-Pro-Preview bile hataları sadece %66,65 oranında doğru sınıflandırabiliyor. Bu bulgular, yapay zeka modellerinin görsel ve dilsel içeriklerdeki mantık hatalarını tespit etmede hâlâ ciddi zorluklarla karşılaştığını gösteriyor. Araştırma, sadece doğru cevap vermeye odaklanan mevcut testlerden farklı olarak, süreç odaklı bir değerlendirme yaklaşımı benimsiyor ve yapay zekanın gerçek anlayış kapasitesini sorguluyor.

Yapay zeka teknolojisindeki hızlı gelişmeler, görsel-dil modellerinin (VLM) performansını önemli ölçüde artırdı. Ancak bu modellerin gerçekten işledikleri içeriği anlayıp anlamadığı kritik bir soru olarak karşımızda duruyor.

Araştırmacılar bu soruyu yanıtlamak için MMErroR adlı yeni bir benchmark geliştirdi. Bu test sistemi, yapay zeka modellerinin yanlış muhakeme süreçlerini fark edip hata türlerini doğru şekilde sınıflandırma becerilerini ölçüyor.

MMErroR, altı ana kategoride 24 farklı alt alana yayılmış 1997 örnek içeriyor. Her örnek, kasıtlı olarak yerleştirilmiş tutarlı bir mantık hatası barındırıyor. Bu yaklaşım, mevcut testlerden önemli bir farkla ayrılıyor: Sadece doğru cevap verip vermediğine bakmak yerine, muhakeme sürecindeki hataları tespit etme yetisini değerlendiriyor.

On iki farklı yapay zeka modeli üzerinde yapılan testlerde, en başarılı performans sergileyen Gemini-3-Pro-Preview bile hataları sadece %66,65 oranında doğru sınıflandırabildi. Bu sonuç, gelişmiş yapay zeka modellerinin bile mantık hatalarını tespit etmekte zorlandığını gösteriyor.

Bu bulgular, yapay zekanın gerçek anlayış kapasitesi konusunda önemli sorular ortaya çıkarıyor. Modellerin görsel ve dilsel bağlamlardaki hatalı muhakeme süreçlerini tespit etmedeki yetersizliği, bu teknolojilerin sınırlarını açıkça ortaya koyuyor.