Live Avatar: Sesle Kontrol Edilen Gerçek Zamanlı Dijital Karakterler Geliştirildi

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, ses komutlarıyla kontrol edilen dijital avatarları gerçek zamanlı olarak oluşturabilen Live Avatar teknolojisini geliştirdi. 14 milyar parametreye sahip yapay zeka modeli, saniyede 45 kare hızında çalışarak saatlerce kesintisiz avatar etkileşimi sağlayabiliyor. Teknoloji, mevcut difüzyon modellerinin sıralı işlem yapma zorunluluğunu aşarak, her GPU'ya farklı zaman adımları atayan yenilikçi bir paralel işleme yaklaşımı kullanıyor. Bu gelişme, video konferans, oyun, eğitim ve sosyal medya platformları için devrim niteliğinde uygulamalar sunuyor. Sistem, 10.000 saniyeyi aşan sürelerde bile görsel kalite kaybı yaşamadan çalışabiliyor ve kimlik kayması sorununu çözmüş durumda.

Yapay zeka alanında önemli bir atılım gerçekleştiren araştırmacılar, sesle kontrol edilen dijital avatarları gerçek zamanlı olarak oluşturabilen Live Avatar teknolojisini geliştirdi. Bu yenilikçi sistem, mevcut teknolojilerin karşılaştığı temel zorluklara çözüm getiriyor.

Geleneksel difüzyon modelleri, görüntü oluşturma sürecinde sıralı işlemler gerektirdiği için gerçek zamanlı uygulamalarda yetersiz kalıyordu. Live Avatar ise bu sorunu, algoritma ve sistem tasarımını birlikte optimize eden hibrit bir yaklaşımla çözüyor. 14 milyar parametreye sahip model, iki aşamalı bir süreçle önceden eğitilmiş çift yönlü modeli, az adımda çalışan nedensel bir akış modeline dönüştürüyor.

Teknolojinin en dikkat çekici özelliği, Timestep-forcing Pipeline Parallelism (TPP) adı verilen sistem yaklaşımı. Bu yöntemde her GPU'ya sabit bir gürültü temizleme zaman adımı atanıyor, böylece sıralı difüzyon zinciri asenkron bir uzamsal ardışık düzene dönüştürülüyor. Sonuç olarak hem işlem hızı artıyor hem de zamansal tutarlılık iyileşiyor.

Live Avatar, saniyede 45 kare hızında çalışırken 10.000 saniyeyi aşan sürelerde bile kimlik kayması ve görsel bozukluk yaşamadan stabil performans sergiliyor. Bu başarı, video konferans sistemleri, sanal gerçeklik uygulamaları, oyun endüstrisi ve sosyal medya platformları için yeni olanaklar sunuyor.

Etiketler

#yapay zeka #dijital avatar #gerçek zamanlı #difüzyon modeli #ses tanıma

Özgün Kaynak

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

https://arxiv.org/abs/2512.04677

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.