Sesli Komutlarla Video Analizi: Yapay Zeka Yarışmasında Birinci Olan Sistem

Araştırmacılar, konuşma dilindeki komutları anlayarak videolardaki nesneleri tespit edip ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. APRVOS adlı bu sistem, PVUW MeViS-Audio yarışmasında birinci oldu. Geleneksel metin tabanlı sistemlerden farklı olarak, sesli komutları anlayıp videolardaki hedef nesneleri hassas şekilde segmentlere ayırabiliyor. Sistem, önce konuşmayı metne dönüştürüyor, ardından tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Bu yaklaşım, ses teknolojileri ve bilgisayarlı görü arasında köprü kurarak multimodal yapay zeka uygulamalarında önemli bir adım temsil ediyor.

Yapay zeka alanında ses teknolojileri ve bilgisayarlı görü birleştiren yenilikçi bir sistem, uluslararası yarışmada birinci olmayı başardı. APRVOS adı verilen bu sistem, kullanıcıların sesli komutlarını anlayarak videolardaki belirli nesneleri tespit edip ayırıyor.

Geleneksel video analizi sistemleri genellikle yazılı metin komutlarıyla çalışırken, bu yeni sistem doğrudan konuşma sesiyle etkileşim kurabiliyor. Sistem üç aşamalı bir işlem takip ediyor: İlk aşamada VibeVoice-ASR teknolojisini kullanarak konuşmayı metne dönüştürüyor. İkinci aşamada, ses kayıtlarından elde edilen bilgilerin genellikle gürültülü olması ve bazen videoda bulunmayan nesneleri tarif etmesi nedeniyle, Omni tabanlı bir doğrulama modülü devreye giriyor.

Bu doğrulama sistemi, tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Eğer hedef nesne videoda bulunamıyorsa, sistem erken sonlanarak boş maskeler üretiyor. Aksi takdirde, metin Sa2VA sistemine aktarılarak hassas segmentasyon işlemi gerçekleştiriliyor.

5. PVUW MeViS-Audio yarışmasında birinci olan bu yaklaşım, multimodal yapay zeka uygulamalarında önemli bir gelişme temsil ediyor ve ses-görsel etkileşim teknolojilerinin geleceği için umut vaat ediyor.