Yapay zeka avatarları gerçek zamanlı konuşma becerisine kavuşuyor

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerini gerçek zamanlı görsel avatarlarla buluşturan EmbodiedHead adlı yeni bir teknoloji geliştirdi. Bu sistem, yapay zekanın hem dinleme hem de konuşma sırasında doğal davranışlar sergilemesini sağlıyor. Özellikle Rectified-Flow Diffusion Transformer adlı yeni bir model kullanarak, sadece dört adımda yüksek kaliteli görsel üretim gerçekleştiriyor. Sistem, geleneksel çift ses akışı yönteminin aksine, tek ses akışı kullanarak kullanıcı-yapay zeka etkileşimini daha doğal hale getiriyor. Dinleme sırasında gereksiz ağız hareketlerini engellerken, konuşma sırası geçişlerini sorunsuz şekilde yönetebiliyor. Bu gelişme, sanal asistanlar ve dijital avatarlar için önemli bir adım teşkil ediyor.

Yapay zeka teknolojisinde yeni bir dönüm noktası yaşanıyor. Araştırmacılar, büyük dil modellerini gerçek zamanlı görsel avatarlarla birleştiren EmbodiedHead adlı çığır açan bir sistem geliştirdi. Bu teknoloji, yapay zekanın insan benzeri görsel bir kimlikle doğal konuşmalar yapabilmesini sağlıyor.

Sistemin en dikkat çekici özelliği, Rectified-Flow Diffusion Transformer (DiT) adlı yeni bir model kullanması. Bu model, geleneksel yöntemlere kıyasla çok daha hızlı çalışıyor ve sadece dört hesaplama adımında yüksek kaliteli görsel sonuçlar üretiyor. Böylece gerçek zamanlı etkileşim mümkün hale geliyor.

Önceki sistemlerin en büyük sorunu, dinleme ve konuşma davranışlarını ayrı ayrı işlemeleri ve bu durumun doğal olmayan görünümler yaratmasıydı. EmbodiedHead ise tek bir ses akışı kullanarak bu problemi çözüyor. Sistem, her an için dinleme veya konuşma durumunu açık şekilde belirleyerek, dinleme sırasında gereksiz ağız hareketlerini önlüyor.

Streaming Audio Scheduler adı verilen özel bir zamanlayıcı sayesinde, avatar konuşma sırası geçişlerini doğal bir şekilde yönetiyor. İki aşamalı eğitim sisteminin ilk aşaması katsayı uzayında ön eğitim, ikinci aşaması ise görüntü alanında ortak iyileştirme içeriyor.

Bu gelişme, sanal asistanlar, müşteri hizmetleri robotları ve eğitim uygulamaları için büyük potansiyel taşıyor.

Etiketler

#yapay zeka #avatar teknolojisi #doğal dil işleme #görüntü üretimi #insan-bilgisayar etkileşimi

Özgün Kaynak

EmbodiedHead: Real-Time Listening and Speaking Avatar for Conversational Agents

https://arxiv.org/abs/2604.17211

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.