Teknoloji & Yapay Zeka

Yapay zeka artık videolardan istediğiniz sesi ayırabilir

Sony araştırmacıları, videolardaki karışık sesler arasından istenen belirli sesleri ayırabilen yeni bir yapay zeka modeli geliştirdi. MMAudioSep adlı sistem, kullanıcıların metin veya video sorguları ile hangi sesi duymak istediklerini belirlemelerine olanak tanıyor. Model, önceden eğitilmiş video-ses üretim teknolojilerinin üzerine kurularak daha verimli bir şekilde geliştirildi. Bu yaklaşım sayesinde sistem sıfırdan eğitilmek zorunda kalmadı ve mevcut ses ayrıştırma modellerinden daha başarılı sonuçlar üretti. Araştırmanın en ilginç yanı, modelin ses ayrıştırma yeteneği kazandıktan sonra bile orijinal video-ses üretim kapasitesini koruması. Bu durum, temel ses üretim modellerinin farklı ses işleme görevleri için uyarlanabileceğini gösteriyor.

Sony'nin araştırmacıları, video içeriklerindeki karmaşık ses ortamlarından istenen belirli sesleri ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. MMAudioSep olarak adlandırılan bu model, kullanıcıların metin açıklamaları veya video örnekleri vererek hangi sesi duymak istediklerini belirleyebilmelerine olanak tanıyor.

Sistemin en önemli özelliği, sıfırdan eğitilmek yerine önceden geliştirilmiş video-ses üretim modellerinin bilgisini kullanması. Bu yaklaşım, modelin video ve ses arasındaki ilişkiyi daha hızlı öğrenmesini sağlayarak eğitim sürecini oldukça verimli hale getiriyor. Araştırmacılar, bu yöntemin hem deterministik hem de üretken yaklaşımlara dayalı mevcut ses ayrıştırma modellerinden daha üstün performans gösterdiğini kanıtladı.

MMAudioSep'in dikkat çeken bir diğer özelliği ise çok işlevliliği. Model, ses ayrıştırma yeteneği kazandıktan sonra bile orijinal video-ses üretim kapasitesini koruyor. Bu durum, tek bir sistemin birden fazla ses işleme görevi için kullanılabileceğini gösteriyor.

Bu gelişme, temel ses üretim modellerinin farklı ses teknolojisi uygulamalarında ne kadar potansiyel taşıdığını ortaya koyuyor. Araştırma kodları açık kaynak olarak GitHub'da paylaşılarak bilim insanları ve geliştiricilerin erişimine sunuldu.

Özgün Kaynak
arXiv (CS + AI)
MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.