Yapay zeka destekli ses teknolojilerinde önemli bir ilerleme kaydedildi. Tayland merkezli araştırmacılar tarafından geliştirilen JaiTTS-v1.0 modeli, ses klonlama alanında insan performansını geçmeyi başardı.

VoxCPM mimarisinden uyarlanan bu model, geleneksel yöntemlerden farklı olarak doğrudan sayısal ifadeleri ve Tayca-İngilizce karışık konuşmaları işleyebiliyor. Bu özellik, günlük hayatta sıkça karşılaşılan dil geçişlerini doğal bir şekilde ele alabiliyor.

Yapılan testlerde model, kısa süreli konuşmalarda %1.94 karakter hata oranı elde ederek, insan konuşmacıların %1.98'lik performansını geride bıraktı. Uzun süreli konuşmalarda ise insan düzeyinde başarı gösterdi.

İnsan değerlendirmeciler tarafından yapılan karşılaştırmalı testlerde, JaiTTS-v1.0 ticari ses teknolojilerinin önde gelen ürünleriyle yarıştırıldı. 400 ikili karşılaştırmanın 283'ünde üstün performans sergilerken, sadece 58'inde geride kaldı.

Bu başarı, özellikle çok dilli ortamlarda kullanılabilecek ses teknolojilerinin gelişiminde önemli bir adım olarak değerlendiriliyor.