Yapay zeka alanında uzun videolar için yeni bir çığır açacak VideoThinker modeli geliştirildi. Mevcut Video Büyük Dil Modelleri (VideoLLM) uzun form videoları anlamada önemli sınırlamalara sahipken, VideoThinker bu sorunları agentic yaklaşımla çözmeyi hedefliyor.
Geleneksel modeller, videoların düzenli aralıklarla örneklenmiş karelerini statik olarak analiz ediyor. Bu yöntem, zamansal konumlandırmayı zayıflatıyor ve uzun videolarda önemli bilgi kayıplarına neden oluyor. VideoThinker ise temporal geri çağırma, uzamsal yakınlaştırma ve zamansal yakınlaştırma gibi araçları kullanarak videolardaki kritik anları adaptif şekilde keşfediyor.
Modelin en büyük yeniliği, tamamen sentetik araç etkileşim verisiyle eğitilmiş olması. Araştırmacılar, agentic video anlama verisi oluşturmanın döngüsel bir bağımlılık yarattığı sorununu fark etmiş. Çünkü böyle bir veri üretmek için zaten güçlü video anlama kabiliyetine sahip modellere ihtiyaç duyuluyor.
VideoThinker bu sorunu çözmek için videoları zengin altyazılara dönüştürüyor ve güçlü bir agentic dil modeli kullanarak altyazı uzayında çok adımlı araç kullanım dizileri üretiyor. Bu yaklaşım, video analizi alanında performans artışı sağlayabilecek önemli bir gelişme olarak öne çıkıyor.