Yapay zeka alanında yeni bir milestone belirlendi. Araştırmacılar, YZ sistemlerinin gerçek akıl yürütme kapasitelerini ölçmek için ARC-AGI-3 adlı yenilikçi bir test platformu geliştirdi. Bu benchmark, önceki versiyonlarının aksine tamamen etkileşimli ortamlar sunuyor ve YZ ajanlarından hiçbir açık talimat olmadan problem çözmelerini bekliyor.
ARC-AGI-3'ün en dikkat çekici özelliği, yapay zeka sistemlerini insan benzeri öğrenme süreçlerine zorlamasıdır. Test ortamında ajanlar, çevreyi keşfetmeli, hedefleri kendi başlarına çıkarsamalı, sistem dinamiklerinin iç modellerini oluşturmalı ve etkili eylem dizileri planlamalıdır. Bu yaklaşım, sadece pattern tanıma değil, gerçek anlayış ve adaptasyon yeteneğini değerlendirmeyi amaçlıyor.
Test sonuçları, mevcut YZ teknolojilerinin sınırlarını net şekilde ortaya koyuyor. İnsanların %100 başarı oranına karşılık, en gelişmiş YZ sistemleri %1'den bile düşük performans sergiliyor. Bu dramatik fark, günümüz YZ sistemlerinin daha çok ezber ve pattern eşleştirmesi yaptığını, gerçek akıl yürütme konusunda ise yetersiz kaldığını gösteriyor.
Benchmark'ın tasarımında özellikle dil ve harici bilgi kullanımından kaçınılmış, sadece temel bilişsel yeteneklere odaklanılmış. Bu sayede test, kültürel önyargılardan arınmış ve evrensel zeka ölçümü sağlıyor. Araştırmacılar, her test ortamını insan katılımcılarla kapsamlı şekilde doğrulamış ve zorluk seviyelerini kalibre etmiş.