Yeni bir araştırma, yapay zeka ile üretilen ses klonlarının gürültülü ortamlarda insan seslerinden %20'ye kadar daha kolay anlaşıldığını ortaya koydu. Çalışma, yapay zekanın konuşmayı 'idealleştirerek' daha net hale getirdiğini gösteriyor. Bu bulgu, yapay zeka teknolojisinin ses işleme alanında insan performansını aşabileceğine dair önemli ipuçları sunuyor. Araştırmacılar, AI'nın konuşma netliğini artırma yeteneğinin özellikle işitme zorluğu yaşayan kişiler için büyük avantajlar sağlayabileceğini belirtiyor. Sonuçlar ayrıca gelecekte ses teknolojilerinin gelişimi açısından da kritik öneme sahip.

Neuroscience News 0

Teknoloji & Yapay Zeka

21 Apr

İşaret Dili Tanıma Sistemlerinde Çok Açılı Görüntü Devrimi

Araştırmacılar, işaret dilini farklı açılardan daha doğru tanıyabilen yeni bir yapay zeka sistemi geliştirdi. CanonSLR adlı sistem, öğretmen-öğrenci öğrenme stratejisi kullanarak önden çekilen görüntülerdeki bilgileri yan açılardan çekilen görüntülere aktarıyor. Bu yaklaşım, gerçek hayatta karşılaşılan farklı kamera açılarından kaynaklanan tanıma zorluklarını büyük ölçüde azaltıyor. Sistem, işaret dilindeki hareketlerin zamansal yapısını analiz ederek, açı değişikliklerinden kaynaklanan belirsizlikleri gideriyor ve daha güvenilir sonuçlar üretiyor. Bu gelişme, işitme engelli bireylerin teknoloji ile etkileşimini kolaylaştıracak uygulamalarda önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

EgoSound: Yapay Zeka İçin İlk Kişi Bakış Açısı Ses Anlama Kıyaslama Sistemi

Araştırmacılar, yapay zekanın egosantrik videolarda ses anlama yeteneğini değerlendiren ilk kapsamlı kıyaslama sistemi olan EgoSound'u geliştirdi. İnsanların görme, işitme ve hareket algısını birleştirerek dünyayı anlamlandırdığı gerçeğinden yola çıkan sistem, özellikle birinci şahıs görüş açısından çekilen videolarda sesin önemini vurguluyor. EgoSound, mekânsal düzen hakkında ipuçları, ekran dışı olaylar ve nedensel etkileşimler gibi ses yoluyla elde edilen kritik bilgileri analiz ediyor. 900 video üzerinde 7315 doğrulanmış soru-cevap çifti içeren bu benchmark, ses algısından mekânsal konumlandırmaya, nedensel çıkarımdan çapraz modal akıl yürütmeye kadar yedi farklı görev kategorisini kapsıyor. Çok aşamalı otomatik üretim süreciyle oluşturulan sistem, çok modlu büyük dil modellerinin gerçek dünya koşullarında ses anlama kapasitelerini sistematik olarak test etmeyi mümkün kılıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

İşaret dili tanıma teknolojisinde devrim: 5 kat daha hızlı sistem geliştiridi

Brezilya İşaret Dili (LIBRAS) tanıma sistemlerinde çığır açan bir gelişme yaşandı. Araştırmacılar, vücut işaret noktalarının doğru alt kümesini seçerek hem daha doğru hem de 5 kat daha hızlı çalışan bir sistem geliştirdi. Geleneksel OpenPose teknolojisinin yerini alan hafif MediaPipe sistemi, başlangıçta doğruluk kaybına neden olmuştu. Ancak bilim insanları, özenle seçilmiş vücut noktalarını kullanarak bu sorunu çözmeyi başardı. Yeni yaklaşım, işaret dili tanıma teknolojisinin gerçek zamanlı uygulamalarda kullanımını kolaylaştırarak, işitme engelli bireylerin iletişim teknolojilerine erişimini artırabilir. Araştırma ayrıca eksik işaret noktası sorunlarını gidermek için spline tabanlı tamamlama yönteminin etkinliğini de kanıtladı.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Alman İşaret Dilindeki Duyguları Çözmeyi Öğrendi

Alman araştırmacılar, işaret dilindeki duyguları analiz edebilen yenilikçi bir yapay zeka sistemi geliştirdi. Sistem, Alman İşaret Dili (DGS) ile anlatılan masal videolarından pozitif, nötr ve negatif duyguları %63 doğrulukla tespit edebiliyor. Araştırma, sadece yüz ifadelerinin değil, kalça, dirsek ve omuz hareketlerinin de duygusal ifadede kritik rol oynadığını ortaya koydu. Bu çalışma, işitme engelli topluluğun dijital iletişim deneyimini geliştirecek uygulamaların temelini oluşturuyor.

arXiv (CS + AI) 0