Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar uzun video içeriklerini anlayan sistemler için yeni bir bellek mimarisi tasarladı. MM-Mem olarak adlandırılan bu sistem, insan beyninin bilgi işleme mekanizmalarından ilham alıyor.
Mevcut çok modlu dil modelleri kısa süreli analiz konusunda etkileyici performans sergilerken, uzun video anlama görevlerinde sınırlı kalıyor. Bu durum, kısıtlı bağlam pencereleri ve statik bellek mekanizmalarından kaynaklanıyor. Araştırmacılar, bu soruna çözüm olarak Bulanık İz Teorisi'nden yararlandı.
Yeni sistem, belleği üç katmanlı hiyerarşik yapıda organize ediyor: Duyusal Tampon, Epizodik Akış ve Sembolik Şema. Bu yapı sayesinde, detaylı algısal izler aşamalı olarak üst düzey anlamsal şemalara dönüştürülüyor.
Geleneksel yaklaşımlar iki uçta kalıyor: Görsel odaklı yöntemler yoğun görsel birikim nedeniyle yavaş çalışırken, metin odaklı yaklaşımlar aşırı özetleme yüzünden detay kaybına neden oluyor. MM-Mem bu iki yaklaşımın avantajlarını birleştirerek, hem hızlı hem de detaylı video analizi sunuyor.
Sistem ayrıca bellek yapısının dinamik oluşumunu yöneten Semantik Bilgi Darboğazı algoritması kullanıyor. Bu sayede video içeriği daha verimli şekilde işlenip depolanabiliyor.