Teknoloji & Yapay Zeka

Yapay zeka sesleri insan gibi konuşuyor ama bir eksikleri var

Navigasyon sistemlerinden sesli asistanlara kadar günlük yaşamımızda karşılaştığımız bilgisayar sesleri ne kadar insana benziyor? Almanya'da Max Planck Ampirik Estetik Enstitüsü'nün yaptığı araştırma, yapay zeka seslerinin insan algısı üzerindeki etkisini inceledi. Çalışma sonuçları, bu seslerin ne kadar insan gibi algılandığının üç faktöre bağlı olduğunu ortaya koydu: konuşma tarzı, söylenen içerik ve dinleyicinin dili anlayıp anlamaması. Bulgular, yapay zeka teknolojisinin ses üretiminde geldiği noktayı gösterirken, hâlâ aşılması gereken sınırları da gözler önüne seriyor. Araştırma, Speech Communication dergisinde yayımlanarak ses teknolojileri alanında önemli bir katkı sağladı.

Günümüzde arabamızın navigasyon sisteminden telefonumuzdaki sesli asistana, havaalanlarındaki otomatik anonslardan müşteri hizmetlerinin sesli yanıt sistemlerine kadar her yerde bilgisayar üretimi seslerle karşılaşıyoruz. Peki bu sesler gerçekten ne kadar insansı geliyor kulağa?

Almanya'nın Frankfurt am Main kentindeki Max Planck Ampirik Estetik Enstitüsü araştırmacıları bu soruya yanıt arayarak ilginç bulgulara ulaştı. Speech Communication dergisinde yayımlanan çalışma, yapay zeka seslerinin insan algısı üzerindeki etkisini detaylı olarak inceledi.

Araştırma sonuçları, bilgisayar seslerinin ne kadar insan gibi algılandığının üç temel faktöre dayandığını ortaya koydu. Bunların ilki konuşmanın tarzı - yani sesin nasıl söylediği. İkincisi ise söylenen içeriğin kendisi, üçüncüsü de dinleyicinin o dili anlayıp anlamaması.

Bu bulgular, yapay zeka teknolojisinin ses sentezi alanında kaydettiği önemli ilerlemeyi gözler önüne sererken, aynı zamanda teknolojinin henüz tam anlamıyla insan sesini taklit edemediğini de gösteriyor. Özellikle konuşmanın belirli katmanlarında hâlâ yapay olduğu anlaşılan unsurlar bulunuyor.

Çalışmanın sonuçları, ses teknolojisi geliştiricileri için önemli ipuçları sunuyor ve gelecekte daha doğal ses üretimi için hangi alanlara odaklanılması gerektiği konusunda yol gösterici oluyor.

Özgün Kaynak
Phys.org — Sosyal Bilimler
These computer voices sound human enough to mislead, but one layer of speech still breaks the illusion
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.