Yapay zeka sistemlerinin en kritik eksikliklerinden biri olan 'süreklilik' sorunu için yeni bir değerlendirme standardı geliştirildi. Araştırmacılar, AI sistemlerinin zaman içinde anlamlı bağlamı koruma, güncelleme ve yeniden yapılandırma yeteneğini ölçen ATANT (Automated Test for Acceptance of Narrative Truth) çerçevesini tanıttı.

Mevcut AI teknolojileri RAG pipeline'ları, vektör veritabanları ve uzun bağlam pencereleri gibi hafıza bileşenleri içerse de, bunların gerçek süreklilik sağlayıp sağlamadığını ölçen standart bir yöntem yoktu. ATANT, bu boşluğu doldurmak için süreklilik kavramını 7 temel özellikle tanımlıyor ve objektif ölçüm metodolojisi sunuyor.

Sistem, 6 farklı yaşam alanından 250 hikaye ve 1,835 doğrulama sorusu içeren kapsamlı bir test korpusu kullanıyor. En önemli özelliklerden biri, değerlendirme sürecinde başka bir dil modeli kullanmaması, böylece önyargısız sonuçlar elde etmesi.

Test sonuçları umut verici: Eski mimarilerde %58 olan başarı oranı, gelişmiş sistemlerde izole modda %100'e, 50 hikayeli kümülatif modda ise %96'ya ulaştı. Bu gelişme, AI sistemlerinin gerçek anlamda 'öğrenme' ve 'hatırlama' kapasitelerinin artırılabileceğini gösteriyor.