Yapay zeka teknolojisinde yeni bir atılım gerçekleşti: Araştırmacılar, videoları analiz ederek gerçekçi stereo ses efektleri üreten StereoFoley sistemini geliştirdi. Bu yenilikçi teknoloji, film ve video prodüksiyonunda kullanılan foley sanatının dijital versiyonunu sunuyor.

Sistem, videoları izleyerek sadece ses üretmekle kalmıyor, aynı zamanda nesnelerin videodaki konumlarını analiz ederek stereo ses kanallarında doğru yönlendirme yapabiliyor. Örneğin, ekranın sol tarafında hareket eden bir arabanın sesini sol hoparlörden daha güçlü çıkarıyor. Bu özellik, mevcut video-to-audio sistemlerinin çoğunun sahip olmadığı bir yetenektir.

StereoFoley'nin en dikkat çekici özelliği, nesnelerin uzaklığına göre ses yoğunluğunu ayarlayabilmesi. Kameraya yakın nesneler daha yüksek, uzak nesneler ise daha düşük sesle temsil ediliyor. Bu, gerçek dünya ses deneyimini oldukça başarılı şekilde taklit ediyor.

Araştırmacılar, profesyonel kalitede uzamsal ses verilerinin eksikliği sorununu sentetik veri üretimi ile çözdü. Video analizi, nesne takibi ve dinamik ses sentezi teknikleriyle oluşturulan bu veriler, sistemin eğitilmesinde kullanıldı. Sonuçta 48 kHz kalitesinde, semantik olarak uyumlu ve zamansal senkronizasyonu mükemmel stereo sesler üretebilen bir sistem ortaya çıktı.