SentiAvatar: Duygularını ifade eden dijital insanlar gerçek zamanlı etkileşime hazır

Araştırmacılar, gerçek zamanlı olarak konuşabilen, jest yapabilen ve duygu ifade edebilen 3D dijital karakter sistemini geliştirdi. SentiAvatar adlı bu framework, 37 saatlik özel veri seti ve 200 binden fazla hareket sekansıyla eğitilmiş yapay zeka modeli kullanıyor. Sistem, konuşma sesini vücut hareketleri ve yüz ifadeleriyle senkronize ederek doğal etkileşim sağlıyor. SuSu adlı sanal karakter ile test edilen teknoloji, gelecekte sanal asistanlar, eğitim uygulamaları ve metaverse deneyimlerinde kullanılabilir. Çalışma, semantik planlama ile çerçeve düzeyinde hareket üretimini ayıran yenilikçi mimariyle dijital insan teknologisinde önemli adım teşkil ediyor.

Bilim insanları, gerçek zamanlı olarak konuşabilen, jest yapabilen ve duygu ifade eden 3D dijital karakterler oluşturmak için SentiAvatar adlı yeni bir sistem geliştirdi. Bu teknoloji, SuSu isimli sanal karakter aracılığıyla test edildi ve etkileyici sonuçlar elde etti.

Araştırma ekibi, bu başarıyı elde etmek için üç temel sorunu çözmek zorunda kaldı: yüksek kaliteli çok modlu veri eksikliği, anlamsal bilgiyi harekete dönüştürme zorluğu ve ses tonu ile hareketin çerçeve düzeyinde senkronizasyonu. Bu sorunları aşmak için özel bir veri seti oluşturdular.

SuSuInterActs adı verilen bu veri seti, optik hareket yakalama teknolojisiyle elde edilmiş 21 bin klip ve toplam 37 saatlik içerik barındırıyor. Veri setinde senkronize edilmiş konuşma, tam vücut hareketleri ve yüz ifadeleri bulunuyor. Ayrıca 200 binden fazla hareket sekansı kullanılarak Hareket Temel Modeli eğitildi.

Sistemin kalbi, ses farkındalığına sahip 'önce planla sonra doldur' mimarisi. Bu yaklaşım, cümle düzeyindeki anlamsal planlamayı çerçeve düzeyindeki ses tonu odaklı hareket üretiminden ayırıyor. Bu sayede doğal ve akıcı dijital insan etkileşimi mümkün oluyor.

Teknoloji, gelecekte sanal asistanlar, eğitim uygulamaları ve metaverse deneyimlerinde devrim yaratabilir.

SentiAvatar: Duygularını ifade eden dijital insanlar gerçek zamanlı etkileşime hazır

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor