Yapay zeka destekli ses teknolojilerinin kalitesini değerlendirmede kullanılan büyük ses-dil modelleri (LALM), konuşmacı tutarlılığını analiz etmekte beklenenden çok daha fazla zorlanıyor. Yeni bir araştırma, bu modellerin çok konuşmalı diyaloglarda aynı kişinin ses tutarlılığını değerlendirme yeteneklerini kapsamlı şekilde inceledi.
SpeakerSleuth adı verilen bu kıyas sistemi, gerçek dünya gereksinimlerini yansıtan üç farklı görevle modelleri test ediyor. Araştırmacılar, sentetik ve gerçek konuşmaları kapsayan dört farklı veri setinden 1.818 insan doğrulamalı değerlendirme örneği oluşturdular. Bu örnekler, kontrollü akustik zorluk seviyeleriyle tasarlandı.
12 yaygın kullanılan büyük ses-dil modelinin değerlendirildiği çalışmada şaşırtıcı sonuçlar ortaya çıktı. Modeller, aynı konuşmacının farklı konuşma turlarında akustik tutarsızlıkları güvenilir şekilde tespit etmekte başarısız oldu. Bazı modeler, aynı kişinin sesini bile tutarsız olarak değerlendirirken, diğerleri gerçek tutarsızlıkları göz ardı etti.
En kritik bulgulardan biri, modellerin sorunlu konuşma turlarını tam olarak belirleyememesi oldu. Bu durum, ses tabanlı uygulamalarda kalite kontrol sistemlerinin ne kadar geliştirilmesi gerektiğini gösteriyor. Araştırma, yapay zeka destekli ses değerlendirme teknolojilerinin hala insan seviyesinde performans gösteremediğini ortaya koyuyor.