Yapay zekâ teknolojilerinin konuşma üretme yetenekleri giderek gelişirken, insan benzeri iletişimin önemli bir parçası olan gülme, ağlama ve iç çekme gibi sözsüz sesler büyük ölçüde göz ardı ediliyordu. Araştırmacılar bu eksikliği gidermek için NVBench adında kapsamlı bir değerlendirme sistemi geliştirdi.
NVBench, konuşma sentezi sistemlerinin sözsüz vokalizasyonları ne kadar başarılı ürettiğini ölçen ilk standartlaştırılmış benchmark olma özelliğini taşıyor. Sistem, 45 farklı sözsüz ses türünü kategorize eden birleşik bir sınıflandırma sistemi kullanıyor ve hem İngilizce hem de Çince için özel olarak hazırlanmış veri setleriyle çalışıyor.
Araştırma ekibi, değerlendirme sürecini çok boyutlu bir yaklaşımla tasarladı. Bu yaklaşım, genel konuşma doğallığını ve kalitesini, sözsüz seslerin kontrolü, yerleştirimi ve belirginliği gibi özel kriterlerden ayrı olarak inceliyor. 15 farklı metin-konuşma sistemi üzerinde yapılan testler, nesnel ölçütler, dinleme testleri ve büyük dil modellerinin çok değerlendiricili sistemi kullanılarak gerçekleştirildi.
Test sonuçları ilginç bulgular ortaya koydu. Sistemlerin sözsüz sesleri kontrol etme yetenekleri, genel ses kalitelerinden bağımsız olarak değişkenlik gösteriyor. Özellikle düşük sinyal-gürültü oranına sahip ağızdan çıkan sesler ve uzun süreli duygusal sözsüz sesler, mevcut teknolojiler için en büyük engelleri oluşturuyor. Bu gelişme, yapay zekânın daha doğal ve insansı konuşma üretmesi yolunda önemli bir kilometre taşı sayılıyor.