“ses üretimi” için sonuçlar

Teknoloji & Yapay Zeka

14 May

Yapay zeka sesleri insan gibi konuşuyor ama bir eksikleri var

Navigasyon sistemlerinden sesli asistanlara kadar günlük yaşamımızda karşılaştığımız bilgisayar sesleri ne kadar insana benziyor? Almanya'da Max Planck Ampirik Estetik Enstitüsü'nün yaptığı araştırma, yapay zeka seslerinin insan algısı üzerindeki etkisini inceledi. Çalışma sonuçları, bu seslerin ne kadar insan gibi algılandığının üç faktöre bağlı olduğunu ortaya koydu: konuşma tarzı, söylenen içerik ve dinleyicinin dili anlayıp anlamaması. Bulgular, yapay zeka teknolojisinin ses üretiminde geldiği noktayı gösterirken, hâlâ aşılması gereken sınırları da gözler önüne seriyor. Araştırma, Speech Communication dergisinde yayımlanarak ses teknolojileri alanında önemli bir katkı sağladı.

Phys.org — Sosyal Bilimler 0

Teknoloji & Yapay Zeka

21 Apr

Video-Robin: Videolar için Müzik Üreten Yapay Zeka Geliştirildi

Araştırmacılar, videolara uygun arka plan müziği otomatik olarak oluşturabilen yenilikçi bir yapay zeka sistemi geliştirdi. Video-Robin adlı bu sistem, sadece görsel içeriği değil, aynı zamanda kullanıcının metin komutlarını da dikkate alarak müzik üretiyor. Sistem, iki farklı AI teknolojisini birleştiriyor: otoregresif planlama modülü müziğin genel yapısını belirlerken, difüzyon transformatörleri yüksek kaliteli ses üretimi yapıyor. Bu yaklaşım, hem müzikal kaliteyi hem de semantik anlayışı dengeleyerek kullanıcılara daha fazla kontrol imkanı sunuyor. Geleneksel video-müzik sistemlerinin aksine, Video-Robin kullanıcıların müziğin stilini ve içeriğini metin komutlarıyla yönlendirebilmesine olanak tanıyor. Bu gelişme, video üretimi, reklamcılık ve eğlence sektörü için önemli fırsatlar yaratabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Ses Üretiminde Yeni Sınavı: 10 Dilde Komut Anlama Testi

Araştırmacılar, yapay zekanın metin okuyarak ses üretme yeteneğini değerlendiren kapsamlı bir test sistemi geliştirdi. MINT-Bench adı verilen bu benchmark, sistemlerin farklı dillerde verilen komutları ne kadar iyi anlayıp uygulayabildiğini ölçüyor. 10 farklı dilde yapılan testler, mevcut ticari sistemlerin henüz mükemmel olmadığını, açık kaynak modellerin ise yerel dillerde bazen ticari rakiplerini geçebildiğini ortaya koydu. Bu çalışma, ses teknolojilerinin gelişiminde önemli bir adım olarak görülüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

ControlAudio: Metinle Kontrol Edilebilen Ses Üretiminde Yeni Dönem

Araştırmacılar, metinsel talimatlarla ses üretimine yeni bir boyut katan ControlAudio sistemini geliştirdi. Bu yenilikçi yaklaşım, sadece metin girişiyle değil, aynı zamanda zamansal kontrol ve konuşma içeriği gibi ince ayarlarla da ses üretebiliyor. Sistem, aşamalı difüzyon modelleme tekniğini kullanarak, çok görevli öğrenme problemi olarak tasarlanmış. Önce büyük ölçekli metin-ses veri çiftleri üzerinde eğitilen difüzyon transformatörü, daha sonra zamanlama ve fonem özelliklerini kademeli olarak entegre ediyor. Bu yaklaşım, veri kıtlığı sorununun üstesinden gelirken, daha hassas ve kontrol edilebilir ses üretimi sağlıyor. ControlAudio, yapay zeka destekli ses teknolojilerinde önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Kas sinyalleri düşünce gücüyle konuşmaya dönüştürüldü

Araştırmacılar, yüz kaslarından alınan elektriksel sinyalleri doğrudan sese çevirebilen devrim niteliğinde bir sistem geliştirdi. EMG teknolojisi kullanılarak yapılan bu çalışmada, kasların konuşma sırasındaki elektriksel aktivitesi yapay zeka modelleriyle analiz edilerek ses üretimi gerçekleştirildi. Sistem, özellikle ALS gibi konuşma yetisini kaybettiren hastalıklarda umut verici. Çalışma, yapay zekanın insan vücudundan aldığı biyoelektriksel sinyalleri nasıl anlamlı ses çıktılarına dönüştürebileceğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

FoleyDirector: Videolardan Ses Üretiminde Zamansal Kontrole Çığır Açan Sistem

Araştırmacılar, videolardan ses üretimi konusunda devrim niteliğinde bir sistem geliştirdi. FoleyDirector adlı bu yeni framework, video görüntülerinden ses oluştururken zamansal kontrolü mümkün kılıyor. Sistem, özellikle çoklu ses olaylarının bulunduğu karmaşık sahnelerde veya görsel ipuçlarının yetersiz olduğu durumlarda başarılı sonuçlar veriyor. Yapılandırılmış Zamansal Betikler (STS) adı verilen yenilikçi bir yaklaşım kullanarak, kısa zaman dilimlerine karşılık gelen açıklamaları işleyebiliyor. Bu teknoloji, film endüstrisi başta olmak üzere ses tasarımı alanında önemli ilerlemeler sağlayabilir. Video içeriğinden kaliteli ses üretimi konusunda yaşanan sorunları çözen sistem, off-screen sesler veya kısmen görünen nesneler gibi zorlu durumlarla da başa çıkabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay zeka ses ve görüntüyü fizik kurallarına uygun şekilde birleştiriyor

Araştırmacılar, ses ve video üretiminde fiziksel tutarlılığı artıran yeni bir yapay zeka sistemi geliştirdi. Tora3 adlı bu sistem, nesnelerin hareket yörüngelerini kullanarak görsel hareket ve ses olaylarını birlikte yönetiyor. Mevcut yöntemler genellikle görsel açıdan kararsız hareketler ve yalnızca gevşek bir şekilde hizalanmış sesler üretirken, Tora3 nesne yörüngelerini ortak bir kinematik rehber olarak kullanarak bu sorunu çözüyor. Sistem, hareketle ses arasındaki fiziksel bağlantıyı güçlendirerek daha gerçekçi ses-video içeriği oluşturabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay Zeka ile Mikrofon Dizilerinin Ses Filtreleme Performansı Artırıldı

Araştırmacılar, mikrofon dizilerinin ses alanını nasıl algıladığını gösteren 'yönlendirme vektörlerini' yapay zeka kullanarak iyileştiren yeni bir yöntem geliştirdi. Geleneksel yöntemler, sesin nesnelere çarparak saçılması gibi gerçek dünya etkilerini göz ardı ediyordu. Yeni sistem, fizik kurallarını bilen derin öğrenme algoritmaları ile Gaussian süreç regresyonunu birleştirerek bu sorunu çözüyor. Bu teknoloji, ses filtreleme ve stereo ses üretimi gibi 'artırılmış dinleme' uygulamalarında kullanılabilir. Özellikle ölçüm verilerinin düzensiz dağılımından kaynaklanan aşırı öğrenme sorununu çözerek, daha güvenilir sonuçlar elde edilmesini sağlıyor.

arXiv (CS + AI) 0