Konuşmadan konuşmaya çeviri teknolojisinde önemli bir atılım gerçekleşti. Araştırmacılar, çeviri sistemlerinin uzun süredir devam eden en temel sorunundan birine çözüm getirdi: duygusal ifadelerin kaybolması.
Mevcut çeviri sistemleri kelimeleri doğru aktarmada başarılı olsa da, konuşmanın duygusal dokusunu oluşturan gülme, ağlama gibi sözel olmayan ifadeleri tamamen göz ardı ediyordu. Bu durum, özellikle gerçek zamanlı iletişimde büyük bir eksiklik yaratıyordu.
MoVE (Mixture of Vocalization Experts) adlı yeni sistem, bu soruna çok katmanlı bir yaklaşımla çözüm getiriyor. Sistem, farklı duygusal durumlar için özelleştirilmiş uzman modüller kullanıyor ve bunları yumuşak ağırlıklı bir yönlendirici ile harmanlıyor. Bu sayede karma duygusal durumları bile yakalayabiliyor.
Araştırmacılar ayrıca veri kıtlığı sorununu aşmak için ölçeklenebilir bir sentez işlem hattı geliştirdi. En dikkat çekici bulgu, önceden eğitilmiş ses-dil modellerinin olağanüstü veri verimliliği sağlaması. Sadece 30 dakikalık özenle hazırlanmış veri ile güçlü performans elde edilebiliyor.
İngilizce-Çince çevirilerde yapılan testlerde sistem, hedef duygusal sesleri yüzde 76 oranında başarıyla yeniden üretti ve insan değerlendirmelerinde doğallık ve duygusal sadakat açısından en yüksek puanları aldı.