Teknoloji & Yapay Zeka

Yapay Zeka Sesli Diyaloglarda Konuşmacı Tutarlılığını Değerlendirmekte Zorlanıyor

Araştırmacılar, büyük ses-dil modellerinin çoklu konuşmalı diyaloglarda konuşmacı tutarlılığını ne kadar iyi değerlendirebildiğini test eden SpeakerSleuth adlı yeni bir kıyas sistemi geliştirdi. 12 popüler yapay zeka modelinin test edildiği çalışmada, modellerin aynı kişinin farklı konuşma turlarındaki ses tutarlılığını güvenilir şekilde tespit etmekte ciddi zorluklar yaşadığı ortaya çıktı. 1.818 insan doğrulamalı test örneğinin kullanıldığı araştırma, bazı modellerin gereksiz yere tutarsızlık algıladığını, diğerlerinin ise çok hoşgörülü davrandığını gösterdi. Bu bulgular, ses teknolojilerinde kalite değerlendirme sistemlerinin geliştirilmesi gereken alanları işaret ediyor.

Yapay zeka destekli ses teknolojilerinin kalitesini değerlendirmede kullanılan büyük ses-dil modelleri (LALM), konuşmacı tutarlılığını analiz etmekte beklenenden çok daha fazla zorlanıyor. Yeni bir araştırma, bu modellerin çok konuşmalı diyaloglarda aynı kişinin ses tutarlılığını değerlendirme yeteneklerini kapsamlı şekilde inceledi.

SpeakerSleuth adı verilen bu kıyas sistemi, gerçek dünya gereksinimlerini yansıtan üç farklı görevle modelleri test ediyor. Araştırmacılar, sentetik ve gerçek konuşmaları kapsayan dört farklı veri setinden 1.818 insan doğrulamalı değerlendirme örneği oluşturdular. Bu örnekler, kontrollü akustik zorluk seviyeleriyle tasarlandı.

12 yaygın kullanılan büyük ses-dil modelinin değerlendirildiği çalışmada şaşırtıcı sonuçlar ortaya çıktı. Modeller, aynı konuşmacının farklı konuşma turlarında akustik tutarsızlıkları güvenilir şekilde tespit etmekte başarısız oldu. Bazı modeler, aynı kişinin sesini bile tutarsız olarak değerlendirirken, diğerleri gerçek tutarsızlıkları göz ardı etti.

En kritik bulgulardan biri, modellerin sorunlu konuşma turlarını tam olarak belirleyememesi oldu. Bu durum, ses tabanlı uygulamalarda kalite kontrol sistemlerinin ne kadar geliştirilmesi gerektiğini gösteriyor. Araştırma, yapay zeka destekli ses değerlendirme teknolojilerinin hala insan seviyesinde performans gösteremediğini ortaya koyuyor.

Özgün Kaynak
arXiv (CS + AI)
SpeakerSleuth: Can Large Audio-Language Models Judge Speaker Consistency across Multi-turn Dialogues?
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.