Yapay zeka sistemlerinin hafıza ve süreklilik özelliklerini değerlendiren mevcut benchmark'ların ciddi eksiklikleri olduğu ortaya çıktı. ATANT v1.1 araştırması, sektörde yaygın kullanılan test sistemlerinin yapay zeka hafızasının temel özelliklerini ölçmekte yetersiz kaldığını gösteriyor.
Araştırmacılar, LOCOMO, LongMemEval, BEAM, MemoryBench, Zep ve Letta/MemGPT gibi popüler değerlendirme sistemlerini inceleyerek şaşırtıcı sonuçlara ulaştı. Bu benchmark'ların hiçbiri, ATANT v1.0'da tanımlanan süreklilik özelliğini tam olarak ölçemiyor.
Süreklilik için gerekli 7 temel özellik belirlenmiş durumda. Ancak mevcut değerlendirme sistemleri bu özelliklerin medyan olarak sadece 1'ini, ortalamada ise 0.43'ünü kapsayabiliyor. En iyi performans gösteren test bile 7 özellikten sadece 2'sini değerlendirebiliyor.
Bu durum, uzun süreli etkileşim gerektiren AI asistanları, sohbet botları ve otomatik ajanlar gibi uygulamaların geliştirilmesinde önemli bir sorun oluşturuyor. Hafıza ve süreklilik, bu sistemlerin kullanıcılarla tutarlı ve anlamlı etkileşimler kurabilmesi için kritik önem taşıyor.
Araştırma, mevcut değerlendirme yöntemlerindeki metodolojik eksiklikleri de detaylı bir matrisle ortaya koyarak, yapay zeka hafıza testlerinin yeniden gözden geçirilmesi gerektiğine işaret ediyor.