Yapay zeka alanında önemli bir atılım gerçekleştiren araştırmacılar, sesle kontrol edilen dijital avatarları gerçek zamanlı olarak oluşturabilen Live Avatar teknolojisini geliştirdi. Bu yenilikçi sistem, mevcut teknolojilerin karşılaştığı temel zorluklara çözüm getiriyor.

Geleneksel difüzyon modelleri, görüntü oluşturma sürecinde sıralı işlemler gerektirdiği için gerçek zamanlı uygulamalarda yetersiz kalıyordu. Live Avatar ise bu sorunu, algoritma ve sistem tasarımını birlikte optimize eden hibrit bir yaklaşımla çözüyor. 14 milyar parametreye sahip model, iki aşamalı bir süreçle önceden eğitilmiş çift yönlü modeli, az adımda çalışan nedensel bir akış modeline dönüştürüyor.

Teknolojinin en dikkat çekici özelliği, Timestep-forcing Pipeline Parallelism (TPP) adı verilen sistem yaklaşımı. Bu yöntemde her GPU'ya sabit bir gürültü temizleme zaman adımı atanıyor, böylece sıralı difüzyon zinciri asenkron bir uzamsal ardışık düzene dönüştürülüyor. Sonuç olarak hem işlem hızı artıyor hem de zamansal tutarlılık iyileşiyor.

Live Avatar, saniyede 45 kare hızında çalışırken 10.000 saniyeyi aşan sürelerde bile kimlik kayması ve görsel bozukluk yaşamadan stabil performans sergiliyor. Bu başarı, video konferans sistemleri, sanal gerçeklik uygulamaları, oyun endüstrisi ve sosyal medya platformları için yeni olanaklar sunuyor.