Yapay zeka araştırmacıları, uzun video içeriklerini anlama konusunda önemli bir adım attı. VideoStir adlı yeni sistem, çok modlu büyük dil modellerinin (MLLM) uzun videolarla çalışırken karşılaştığı temel sorunu çözmeyi hedefliyor.
Mevcut sistemlerin temel problemi, sınırlı bağlam pencereleri nedeniyle uzun videoları işleyememesi. Çoğu mevcut yöntem, videoları bağımsız segmentlere bölerek içeriğin doğal uzamsal-zamansal yapısını bozuyor. Ayrıca sadece açık semantik eşleşmelere odaklanarak, sorgunun amacıyla dolaylı olarak ilişkili ipuçlarını kaçırıyor.
VideoStir, bu sorunlara iki temel yenilikle çözüm getiriyor. İlk olarak, videoyu klip seviyesinde uzamsal-zamansal bir graf yapısı olarak modelliyor. Bu yaklaşım, farklı zaman dilimlerindeki ancak bağlamsal olarak ilişkili olaylar arasında çok adımlı bilgi alma işlemi gerçekleştiriyor.
İkinci yenilik ise, sorgunun mantıksal amacıyla uyumlu kareleri tespit eden MLLM destekli bir puanlama sistemi. Bu sistem, sadece yüzeysel benzerlik değil, sorunun gerçek niyetini anlayarak relevant videoyu buluyor.
Bu gelişme, video analizi, içerik moderasyonu, eğitim teknolojileri ve multimedya arama sistemleri gibi birçok alanda devrim yaratabilir.