Yapay zeka teknolojisinde yeni bir dönüm noktası yaşanıyor. Araştırmacılar, büyük dil modellerini gerçek zamanlı görsel avatarlarla birleştiren EmbodiedHead adlı çığır açan bir sistem geliştirdi. Bu teknoloji, yapay zekanın insan benzeri görsel bir kimlikle doğal konuşmalar yapabilmesini sağlıyor.
Sistemin en dikkat çekici özelliği, Rectified-Flow Diffusion Transformer (DiT) adlı yeni bir model kullanması. Bu model, geleneksel yöntemlere kıyasla çok daha hızlı çalışıyor ve sadece dört hesaplama adımında yüksek kaliteli görsel sonuçlar üretiyor. Böylece gerçek zamanlı etkileşim mümkün hale geliyor.
Önceki sistemlerin en büyük sorunu, dinleme ve konuşma davranışlarını ayrı ayrı işlemeleri ve bu durumun doğal olmayan görünümler yaratmasıydı. EmbodiedHead ise tek bir ses akışı kullanarak bu problemi çözüyor. Sistem, her an için dinleme veya konuşma durumunu açık şekilde belirleyerek, dinleme sırasında gereksiz ağız hareketlerini önlüyor.
Streaming Audio Scheduler adı verilen özel bir zamanlayıcı sayesinde, avatar konuşma sırası geçişlerini doğal bir şekilde yönetiyor. İki aşamalı eğitim sisteminin ilk aşaması katsayı uzayında ön eğitim, ikinci aşaması ise görüntü alanında ortak iyileştirme içeriyor.
Bu gelişme, sanal asistanlar, müşteri hizmetleri robotları ve eğitim uygulamaları için büyük potansiyel taşıyor.