Bilim insanları, gerçek zamanlı olarak konuşabilen, jest yapabilen ve duygu ifade eden 3D dijital karakterler oluşturmak için SentiAvatar adlı yeni bir sistem geliştirdi. Bu teknoloji, SuSu isimli sanal karakter aracılığıyla test edildi ve etkileyici sonuçlar elde etti.
Araştırma ekibi, bu başarıyı elde etmek için üç temel sorunu çözmek zorunda kaldı: yüksek kaliteli çok modlu veri eksikliği, anlamsal bilgiyi harekete dönüştürme zorluğu ve ses tonu ile hareketin çerçeve düzeyinde senkronizasyonu. Bu sorunları aşmak için özel bir veri seti oluşturdular.
SuSuInterActs adı verilen bu veri seti, optik hareket yakalama teknolojisiyle elde edilmiş 21 bin klip ve toplam 37 saatlik içerik barındırıyor. Veri setinde senkronize edilmiş konuşma, tam vücut hareketleri ve yüz ifadeleri bulunuyor. Ayrıca 200 binden fazla hareket sekansı kullanılarak Hareket Temel Modeli eğitildi.
Sistemin kalbi, ses farkındalığına sahip 'önce planla sonra doldur' mimarisi. Bu yaklaşım, cümle düzeyindeki anlamsal planlamayı çerçeve düzeyindeki ses tonu odaklı hareket üretiminden ayırıyor. Bu sayede doğal ve akıcı dijital insan etkileşimi mümkün oluyor.
Teknoloji, gelecekte sanal asistanlar, eğitim uygulamaları ve metaverse deneyimlerinde devrim yaratabilir.