Yapay zeka destekli ses üretimi alanında önemli bir gelişme kaydedildi. Araştırmacıların geliştirdiği FoleyDirector sistemi, video görüntülerinden ses oluşturma konusunda zamansal kontrol sorununu çözmeyi başarıyor.

Mevcut video-ses (V2A) sistemleri kaliteli ses üretebilse de, özellikle çoklu ses olaylarının bulunduğu karmaşık sahnelerde veya görsel ipuçlarının zayıf olduğu durumlarla mücadele ediyordu. Küçük alanlar, ekran dışı sesler veya kısmen görünen nesneler gibi zorlu durumlar, bu sistemlerin performansını düşürüyordu.

FoleyDirector, bu sorunları Yapılandırılmış Zamansal Betikler (STS) adı verilen yenilikçi bir yaklaşımla çözüyor. Bu sistem, kısa zaman dilimlerine karşılık gelen açıklamaları kullanarak daha zengin zamansal bilgi sağlıyor. Script-Guided Temporal Fusion Module adı verilen özel bir modül aracılığıyla bu özellikler entegre ediliyor.

Sistemin en dikkat çekici yanlarından biri, temel modelin ses kalitesini korurken hassas zamansal rehberlik sağlayabilmesi. Ayrıca normal V2A üretimi ile zamansal kontrollü sentez arasında sorunsuz geçiş yapabiliyor.

Bu gelişme, özellikle film endüstrisi ve ses tasarımı alanında önemli uygulamalara sahip olabilir. Karmaşık ses sahnelerinin daha doğru ve kontrollü bir şekilde oluşturulması mümkün hale geliyor.