Teknoloji & Yapay Zeka

VideoStir: Uzun videoları anlayan yapay zeka sistemi geliştirildi

Araştırmacılar, uzun videoları analiz edebilen yeni bir yapay zeka sistemi olan VideoStir'i geliştirdi. Çok modlu büyük dil modellerinin (MLLM) sınırlı bağlam penceresi sorunu, uzun video analizinde önemli bir engel oluşturuyordu. VideoStir, videoları uzamsal-zamansal graf yapısı olarak modelleyerek ve çok adımlı bilgi alma yöntemiyle bu sorunu çözüyor. Sistem, videoyu bağımsız parçalara ayırmak yerine bütünsel yapısını koruyarak, farklı zaman dilimlerindeki ilişkili olayları birbirine bağlayabiliyor. Ayrıca sorgunun amacını anlayan bir puanlama sistemiyle, sadece açık eşleşmeleri değil, dolaylı olarak relevant olan ipuçlarını da yakalayabiliyor. Bu gelişme, video analizi, içerik moderasyonu ve eğitim teknolojileri gibi alanlarda önemli uygulamalara sahip olabilir.

Yapay zeka araştırmacıları, uzun video içeriklerini anlama konusunda önemli bir adım attı. VideoStir adlı yeni sistem, çok modlu büyük dil modellerinin (MLLM) uzun videolarla çalışırken karşılaştığı temel sorunu çözmeyi hedefliyor.

Mevcut sistemlerin temel problemi, sınırlı bağlam pencereleri nedeniyle uzun videoları işleyememesi. Çoğu mevcut yöntem, videoları bağımsız segmentlere bölerek içeriğin doğal uzamsal-zamansal yapısını bozuyor. Ayrıca sadece açık semantik eşleşmelere odaklanarak, sorgunun amacıyla dolaylı olarak ilişkili ipuçlarını kaçırıyor.

VideoStir, bu sorunlara iki temel yenilikle çözüm getiriyor. İlk olarak, videoyu klip seviyesinde uzamsal-zamansal bir graf yapısı olarak modelliyor. Bu yaklaşım, farklı zaman dilimlerindeki ancak bağlamsal olarak ilişkili olaylar arasında çok adımlı bilgi alma işlemi gerçekleştiriyor.

İkinci yenilik ise, sorgunun mantıksal amacıyla uyumlu kareleri tespit eden MLLM destekli bir puanlama sistemi. Bu sistem, sadece yüzeysel benzerlik değil, sorunun gerçek niyetini anlayarak relevant videoyu buluyor.

Bu gelişme, video analizi, içerik moderasyonu, eğitim teknolojileri ve multimedya arama sistemleri gibi birçok alanda devrim yaratabilir.

Özgün Kaynak
arXiv (CS + AI)
VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.