Teknoloji & Yapay Zeka

Yapay zeka artık konuşurken gülmeyi ve ağlamayı da çevirebiliyor

Araştırmacılar, konuşmadan konuşmaya çeviri sistemlerinin en büyük eksikliklerinden birini giderdi. MoVE adlı yeni sistem, sadece kelimeleri değil, gülme ve ağlama gibi duygusal sesleri de başka dillere aktarabiliyor. Geleneksel çeviri sistemleri anlam doğruluğunda başarılı olsa da, konuşmanın duygusal boyutunu tamamen kaybediyordu. Bu yeni yaklaşım, farklı duygusal durumlar için özelleşmiş uzman modüller kullanarak ve bunları akıllı bir yönlendirici ile harmanlayarak çalışıyor. Sistem, İngilizce-Çince çevirilerde hedef duygusal sesleri yüzde 76 oranında başarıyla yeniden üretiyor. En şaşırtıcı bulgu ise sadece 30 dakikalık özenle seçilmiş veri ile güçlü performans elde edilebilmesi. Bu gelişme, gerçek zamanlı çeviri teknolojilerinin doğallığını büyük ölçüde artırabilir.

Konuşmadan konuşmaya çeviri teknolojisinde önemli bir atılım gerçekleşti. Araştırmacılar, çeviri sistemlerinin uzun süredir devam eden en temel sorunundan birine çözüm getirdi: duygusal ifadelerin kaybolması.

Mevcut çeviri sistemleri kelimeleri doğru aktarmada başarılı olsa da, konuşmanın duygusal dokusunu oluşturan gülme, ağlama gibi sözel olmayan ifadeleri tamamen göz ardı ediyordu. Bu durum, özellikle gerçek zamanlı iletişimde büyük bir eksiklik yaratıyordu.

MoVE (Mixture of Vocalization Experts) adlı yeni sistem, bu soruna çok katmanlı bir yaklaşımla çözüm getiriyor. Sistem, farklı duygusal durumlar için özelleştirilmiş uzman modüller kullanıyor ve bunları yumuşak ağırlıklı bir yönlendirici ile harmanlıyor. Bu sayede karma duygusal durumları bile yakalayabiliyor.

Araştırmacılar ayrıca veri kıtlığı sorununu aşmak için ölçeklenebilir bir sentez işlem hattı geliştirdi. En dikkat çekici bulgu, önceden eğitilmiş ses-dil modellerinin olağanüstü veri verimliliği sağlaması. Sadece 30 dakikalık özenle hazırlanmış veri ile güçlü performans elde edilebiliyor.

İngilizce-Çince çevirilerde yapılan testlerde sistem, hedef duygusal sesleri yüzde 76 oranında başarıyla yeniden üretti ve insan değerlendirmelerinde doğallık ve duygusal sadakat açısından en yüksek puanları aldı.

Özgün Kaynak
arXiv (CS + AI)
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.