Yapay Zekâ Artık Gülme ve Ağlama Seslerini de Değerlendirebiliyor

Araştırmacılar, konuşma sentezi teknolojilerinin gülme, ağlama, iç çekme gibi sözsüz sesleri ne kadar başarılı ürettiğini ölçen yeni bir değerlendirme sistemi geliştirdi. NVBench adlı bu sistem, 45 farklı sözsüz ses türünü kapsayan İngilizce ve Çince veri setiyle çalışıyor. 15 farklı metin-konuşma sisteminin test edildiği çalışmada, bu sistemlerin kaliteli konuşma üretmekte başarılı olsalar bile sözsüz sesleri kontrol etmekte zorlandığı ortaya çıktı. Özellikle duygusal içerikli uzun sesler ve düşük ses kalitesindeki ağızdan çıkan sesler en büyük zorlukları oluşturuyor. Bu gelişme, yapay zekânın daha insansı konuşma üretmesi için kritik bir adım sayılıyor.

Yapay zekâ teknolojilerinin konuşma üretme yetenekleri giderek gelişirken, insan benzeri iletişimin önemli bir parçası olan gülme, ağlama ve iç çekme gibi sözsüz sesler büyük ölçüde göz ardı ediliyordu. Araştırmacılar bu eksikliği gidermek için NVBench adında kapsamlı bir değerlendirme sistemi geliştirdi.

NVBench, konuşma sentezi sistemlerinin sözsüz vokalizasyonları ne kadar başarılı ürettiğini ölçen ilk standartlaştırılmış benchmark olma özelliğini taşıyor. Sistem, 45 farklı sözsüz ses türünü kategorize eden birleşik bir sınıflandırma sistemi kullanıyor ve hem İngilizce hem de Çince için özel olarak hazırlanmış veri setleriyle çalışıyor.

Araştırma ekibi, değerlendirme sürecini çok boyutlu bir yaklaşımla tasarladı. Bu yaklaşım, genel konuşma doğallığını ve kalitesini, sözsüz seslerin kontrolü, yerleştirimi ve belirginliği gibi özel kriterlerden ayrı olarak inceliyor. 15 farklı metin-konuşma sistemi üzerinde yapılan testler, nesnel ölçütler, dinleme testleri ve büyük dil modellerinin çok değerlendiricili sistemi kullanılarak gerçekleştirildi.

Test sonuçları ilginç bulgular ortaya koydu. Sistemlerin sözsüz sesleri kontrol etme yetenekleri, genel ses kalitelerinden bağımsız olarak değişkenlik gösteriyor. Özellikle düşük sinyal-gürültü oranına sahip ağızdan çıkan sesler ve uzun süreli duygusal sözsüz sesler, mevcut teknolojiler için en büyük engelleri oluşturuyor. Bu gelişme, yapay zekânın daha doğal ve insansı konuşma üretmesi yolunda önemli bir kilometre taşı sayılıyor.