Yapay zeka alanında ses teknolojileri ve bilgisayarlı görü birleştiren yenilikçi bir sistem, uluslararası yarışmada birinci olmayı başardı. APRVOS adı verilen bu sistem, kullanıcıların sesli komutlarını anlayarak videolardaki belirli nesneleri tespit edip ayırıyor.
Geleneksel video analizi sistemleri genellikle yazılı metin komutlarıyla çalışırken, bu yeni sistem doğrudan konuşma sesiyle etkileşim kurabiliyor. Sistem üç aşamalı bir işlem takip ediyor: İlk aşamada VibeVoice-ASR teknolojisini kullanarak konuşmayı metne dönüştürüyor. İkinci aşamada, ses kayıtlarından elde edilen bilgilerin genellikle gürültülü olması ve bazen videoda bulunmayan nesneleri tarif etmesi nedeniyle, Omni tabanlı bir doğrulama modülü devreye giriyor.
Bu doğrulama sistemi, tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Eğer hedef nesne videoda bulunamıyorsa, sistem erken sonlanarak boş maskeler üretiyor. Aksi takdirde, metin Sa2VA sistemine aktarılarak hassas segmentasyon işlemi gerçekleştiriliyor.
5. PVUW MeViS-Audio yarışmasında birinci olan bu yaklaşım, multimodal yapay zeka uygulamalarında önemli bir gelişme temsil ediyor ve ses-görsel etkileşim teknolojilerinin geleceği için umut vaat ediyor.