Araştırmacılar, yapay zeka sistemlerinin zaman içinde anlamlı bağlamı koruma yeteneğini ölçen ilk kapsamlı değerlendirme çerçevesini geliştirdi. ATANT adlı bu sistem, AI'ların gerçekten 'hatırlayıp' öğrenip öğrenmediğini test ediyor. Günümüz AI teknolojilerinde hafıza bileşenleri mevcut olsa da, bunların gerçek süreklilik sağlayıp sağlamadığı belirsizdi. Yeni çerçeve, 7 temel özellik tanımlayarak ve 250 hikaye içeren test korpusu kullanarak bu boşluğu dolduruyor. Test sonuçları, gelişmiş mimarilerin %100'e varan başarı oranları gösterdiğini ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Hafıza Testleri Yetersiz: ATANT Sürekliliği Ölçemiyor

Araştırmacılar, mevcut yapay zeka hafıza değerlendirme sistemlerinin büyük bir eksikliği olduğunu ortaya koydu. ATANT v1.1 çalışması, LOCOMO, LongMemEval, BEAM gibi popüler benchmark'ların, yapay zeka sistemlerinde 'süreklilik' özelliğini düzgün ölçemediğini gösteriyor. Süreklilik için gerekli 7 özellikten ortalama sadece 0.43'ünü kapsayan bu testler, AI hafıza sistemlerinin gerçek performansını değerlendirmekte yetersiz kalıyor. Bu durum, uzun vadeli bellek gerektiren AI uygulamalarının geliştirilmesinde ciddi bir engel oluşturuyor.

arXiv (CS + AI) 0