Sony'nin araştırmacıları, video içeriklerindeki karmaşık ses ortamlarından istenen belirli sesleri ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. MMAudioSep olarak adlandırılan bu model, kullanıcıların metin açıklamaları veya video örnekleri vererek hangi sesi duymak istediklerini belirleyebilmelerine olanak tanıyor.
Sistemin en önemli özelliği, sıfırdan eğitilmek yerine önceden geliştirilmiş video-ses üretim modellerinin bilgisini kullanması. Bu yaklaşım, modelin video ve ses arasındaki ilişkiyi daha hızlı öğrenmesini sağlayarak eğitim sürecini oldukça verimli hale getiriyor. Araştırmacılar, bu yöntemin hem deterministik hem de üretken yaklaşımlara dayalı mevcut ses ayrıştırma modellerinden daha üstün performans gösterdiğini kanıtladı.
MMAudioSep'in dikkat çeken bir diğer özelliği ise çok işlevliliği. Model, ses ayrıştırma yeteneği kazandıktan sonra bile orijinal video-ses üretim kapasitesini koruyor. Bu durum, tek bir sistemin birden fazla ses işleme görevi için kullanılabileceğini gösteriyor.
Bu gelişme, temel ses üretim modellerinin farklı ses teknolojisi uygulamalarında ne kadar potansiyel taşıdığını ortaya koyuyor. Araştırma kodları açık kaynak olarak GitHub'da paylaşılarak bilim insanları ve geliştiricilerin erişimine sunuldu.