Yapay Zeka İçin Yeni Meydan Okuma: İnsanlar %100, YZ Sistemleri %1

Araştırmacılar, yapay zeka sistemlerinin gerçek akıl yürütme yeteneklerini test etmek için ARC-AGI-3 adlı yeni bir benchmark geliştirdi. Bu test, yapay zeka ajanlarının açık talimat olmadan çevre dinamiklerini öğrenmesi, hedefleri çıkarsaması ve etkili eylem planları oluşturması gereken soyut, etkileşimli ortamlar sunuyor. Test sonuçları çarpıcı: İnsanlar bu görevlerin tamamını çözebilirken, 2026 Mart itibariyle en gelişmiş YZ sistemleri %1'den düşük başarı oranı gösteriyor. ARC-AGI-3, dil ve harici bilgi kullanımından kaçınarak sadece temel bilişsel yeteneklere odaklanıyor ve insan test katılımcılarıyla kapsamlı doğrulama sürecinden geçiriliyor. Bu büyük performans farkı, mevcut YZ teknolojilerinin gerçek genel zeka seviyesine ulaşmak için hâlâ önemli mesafe kat etmesi gerektiğini ortaya koyuyor.

Yapay zeka alanında yeni bir milestone belirlendi. Araştırmacılar, YZ sistemlerinin gerçek akıl yürütme kapasitelerini ölçmek için ARC-AGI-3 adlı yenilikçi bir test platformu geliştirdi. Bu benchmark, önceki versiyonlarının aksine tamamen etkileşimli ortamlar sunuyor ve YZ ajanlarından hiçbir açık talimat olmadan problem çözmelerini bekliyor.

ARC-AGI-3'ün en dikkat çekici özelliği, yapay zeka sistemlerini insan benzeri öğrenme süreçlerine zorlamasıdır. Test ortamında ajanlar, çevreyi keşfetmeli, hedefleri kendi başlarına çıkarsamalı, sistem dinamiklerinin iç modellerini oluşturmalı ve etkili eylem dizileri planlamalıdır. Bu yaklaşım, sadece pattern tanıma değil, gerçek anlayış ve adaptasyon yeteneğini değerlendirmeyi amaçlıyor.

Test sonuçları, mevcut YZ teknolojilerinin sınırlarını net şekilde ortaya koyuyor. İnsanların %100 başarı oranına karşılık, en gelişmiş YZ sistemleri %1'den bile düşük performans sergiliyor. Bu dramatik fark, günümüz YZ sistemlerinin daha çok ezber ve pattern eşleştirmesi yaptığını, gerçek akıl yürütme konusunda ise yetersiz kaldığını gösteriyor.

Benchmark'ın tasarımında özellikle dil ve harici bilgi kullanımından kaçınılmış, sadece temel bilişsel yeteneklere odaklanılmış. Bu sayede test, kültürel önyargılardan arınmış ve evrensel zeka ölçümü sağlıyor. Araştırmacılar, her test ortamını insan katılımcılarla kapsamlı şekilde doğrulamış ve zorluk seviyelerini kalibre etmiş.