“konuşma sentezi” için sonuçlar

Teknoloji & Yapay Zeka

1 May

Tayland'dan ses klonlama devrimi: İnsanı geçen yapay zeka modeli

Tayland'da geliştirilen JaiTTS-v1.0 adlı yapay zeka modeli, ses klonlama teknolojisinde çığır açıcı bir başarı elde etti. Model, kısa süreli konuşmalarda insan performansını aşarak %1.94 karakter hata oranına ulaştı. Bu başarı, insan konuşmacıların %1.98'lik hata oranından bile daha iyi. Özellikle Tayca ve İngilizce'nin karışık kullanıldığı gerçek hayat durumlarında bile doğal sonuçlar üretiyor. Ticari yazılımlarla yapılan karşılaştırmalarda 400 testin 283'ünde öne geçmeyi başardı. Bu gelişme, ses teknolojilerinde yeni bir dönemin habercisi olarak görülüyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay zeka konuşmacının sesini koruyarak farklı dillerde konuşabiliyor

Araştırmacılar, bir kişinin ses özelliklerini koruyarak farklı dillerde konuşma üretebilen gelişmiş yapay zeka sistemleri geliştirdi. Bu teknoloji, özellikle bilimsel iletişimde büyük potansiyel taşıyor. Çalışmada, Arapça, Çince ve Fransızca dillerinde ses klonlama modelleri test edildi ve OmniVoice temel modelini kullanan sistemler oluşturuldu. Araştırma ekibi, çoklu model topluluk damıtma yöntemiyle veri artırma tekniklerini kullanarak sistemin performansını iyileştirdi. Sonuçlar, konuşmacının ses benzerliğini korurken tüm dillerde anlaşılabilirliğin önemli ölçüde arttığını gösteriyor. Bu gelişme, bilimsel sunumların farklı dillere çevrilmesi, eğitim içeriklerinin yerelleştirilmesi ve çok dilli iletişim alanlarında devrim yaratabilir.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay zekanın duygu analizi yeteneği tartışma konusu oldu

Araştırmacılar, konuşma sentezinde duygu değerlendirmesi için yaygın kullanılan metriklerin aslında yanıltıcı olduğunu ortaya koydu. Emotion2vec gibi duygu kodlayıcılarının benzerlik ölçümlerinin, gerçek duygusal ifadeleri değerlendirmede yetersiz kaldığı belirlendi. Çalışma, bu sistemlerin linguistic ve konuşmacı farklılıklarından etkilenerek, duygusal özellikleri doğru algılayamadığını gösteriyor. İnsan algısıyla uyumsuz olan bu yaklaşımın, gerçek duygusal sentez yerine sadece akustik taklidi ödüllendirdiği tespit edildi. Bu bulgular, konuşma teknolojilerinde duygu değerlendirme yöntemlerinin yeniden gözden geçirilmesi gerektiğine işaret ediyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Farklı Veri Türlerini Nasıl Senkronize Ediyor?

Araştırmacılar, yapay zeka sistemlerinin video, metin ve ses gibi farklı veri türlerini nasıl eşzamanlı işlediğini anlamak için yenilikçi bir çalışma gerçekleştirdi. Video-metin-konuşma sentezi adlı kontrollü bir görev kullanarak, birleşik transformer modellerinin heterojen örnekleme hızlarına sahip modaliteleri nasıl senkronize ettiğini incelediler. VoxCeleb2 veri setiyle eğitilen Visatronic adlı model üzerinde yapılan deneyler, modalitelerin nasıl tamamlayıcı bilgi sağladığını ve pozisyonel kodlama stratejilerinin senkronizasyonu nasıl mümkün kıldığını ortaya çıkardı. Çalışma, çok modalı AI sistemlerinin çalışma mekanizmalarını anlamamızı derinleştiriyor ve gelecekteki gelişmeler için önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Kas sinyalleri düşünce gücüyle konuşmaya dönüştürüldü

Araştırmacılar, yüz kaslarından alınan elektriksel sinyalleri doğrudan sese çevirebilen devrim niteliğinde bir sistem geliştirdi. EMG teknolojisi kullanılarak yapılan bu çalışmada, kasların konuşma sırasındaki elektriksel aktivitesi yapay zeka modelleriyle analiz edilerek ses üretimi gerçekleştirildi. Sistem, özellikle ALS gibi konuşma yetisini kaybettiren hastalıklarda umut verici. Çalışma, yapay zekanın insan vücudundan aldığı biyoelektriksel sinyalleri nasıl anlamlı ses çıktılarına dönüştürebileceğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

TokenChain: Konuşma Tanıma ve Sentezi Birlikte Öğrenen Yeni Yapay Zeka Sistemi

Araştırmacılar, insan beyninin konuşmayı anlama ve üretme döngüsünden esinlenen TokenChain adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, konuşma tanıma (ASR) ve konuşma sentezi (TTS) teknolojilerini birlikte eğiterek her ikisinin performansını artırıyor. TokenChain, tamamen dijital token tabanlı bir yaklaşım kullanarak, metni anlam tokenlarına dönüştüren ve bu tokenlardan ses üreten iki aşamalı bir süreç izliyor. LibriSpeech veri setinde yapılan testlerde sistem, geleneksel yöntemlere göre 2-6 epoch daha erken hedef doğruluğa ulaştı ve aynı eğitim süresinde %5-13 daha düşük hata oranı gösterdi. TED-LIUM veri setindeki denemelerde ise konuşma tanıma hatalarını %56, metin-konuşma sentez hatalarını %31 oranında azalttı. Bu gelişme, yapay zeka sistemlerinin daha verimli konuşma işleme yetenekleri kazanmasına katkı sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Artık Dudak Hareketlerinden Konuşma Sentezleyebiliyor

Araştırmacılar, sessiz videolardaki dudak hareketlerinden gerçekçi konuşma sesleri üreten yeni bir yapay zeka sistemi geliştirdi. HiCoDiT adlı bu sistem, konuşmanın hiyerarşik yapısını taklit ederek önce konuşmacının genel ses özelliklerini, ardından ince prosodik detayları öğreniyor. Sistem, konuşmanın farklı katmanlarını ayrı ayrı işleyerek görsel ve işitsel özellikler arasında güçlü bir uyum sağlıyor. Bu teknoloji, işaret dili tercümanlığı, ses kaybı yaşayan kişiler için rehabilitasyon ve film endüstrisinde dublaj gibi alanlarda devrim yaratabilir. Diffusion transformer mimarisi kullanan sistem, mevcut yöntemlere göre daha doğal ve anlaşılır konuşma sentezliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zekâ Artık Gülme ve Ağlama Seslerini de Değerlendirebiliyor

Araştırmacılar, konuşma sentezi teknolojilerinin gülme, ağlama, iç çekme gibi sözsüz sesleri ne kadar başarılı ürettiğini ölçen yeni bir değerlendirme sistemi geliştirdi. NVBench adlı bu sistem, 45 farklı sözsüz ses türünü kapsayan İngilizce ve Çince veri setiyle çalışıyor. 15 farklı metin-konuşma sisteminin test edildiği çalışmada, bu sistemlerin kaliteli konuşma üretmekte başarılı olsalar bile sözsüz sesleri kontrol etmekte zorlandığı ortaya çıktı. Özellikle duygusal içerikli uzun sesler ve düşük ses kalitesindeki ağızdan çıkan sesler en büyük zorlukları oluşturuyor. Bu gelişme, yapay zekânın daha insansı konuşma üretmesi için kritik bir adım sayılıyor.

arXiv (CS + AI) 0