Yapay zeka destekli konuşma teknolojilerinde duygu değerlendirmesi için kullanılan yaygın yöntemler, beklenenden çok daha problemli olduğu ortaya çıktı. Araştırmacılar, bu alandaki temel varsayımları sorgulayan önemli bir çalışma gerçekleştirdi.
Konuşma sentezi ve ses dönüştürme teknolojilerinde duygusal ifadelerin kalitesini ölçmek için emotion2vec gibi duygu kodlayıcıları yaygın şekilde kullanılıyor. Bu sistemler, referans ve üretilen ses örnekleri arasındaki duygu benzerliğini kosinüs benzerliği hesaplayarak ölçmeye çalışıyor. Ancak yeni araştırma, bu yaklaşımın temel açıklara sahip olduğunu gösteriyor.
Kontrollü deneyler ve insan algısı testleri, bu duygu kodlayıcılarının yüksek sınıflandırma doğruluğuna rağmen sıfır-atış benzerlik değerlendirmesi için uygun olmadığını ortaya koydu. Temsil kısıtlamaları nedeniyle linguistic ve konuşmacı müdahalesi, duygusal özellikleri gölgede bırakarak ayırt etme yeteneğini bozuyor.
Bu durum, metriklerin insan algısıyla uyumsuz olmasına yol açıyor. Araştırma, akustik zayıflığın gerçek duygusal sentez yerine akustik taklidi ödüllendirdiğini gösteriyor. Bu bulgular, konuşma teknolojilerinde duygu değerlendirme yaklaşımlarının köklü bir revizyona ihtiyaç duyduğuna işaret ediyor.