Yapay zeka alanında dudak senkronizasyonu teknolojisinde çığır açan bir gelişme yaşandı. FlashLips adlı yeni sistem, video ve ses arasındaki uyumu gerçek zamanlı olarak sağlarken, saniyede 100 karenin üzerinde işlem kapasitesi sunuyor.
Sistemin en dikkat çekici özelliği iki aşamalı yapısı. İlk aşamada, referans kimlik, hedef kare ve dudak pozisyon vektörü kullanarak görüntüyü yeniden yapılandıran kompakt bir editör bulunuyor. Bu editör, geleneksel GAN veya difüzyon modellerinden farklı olarak sadece yeniden yapılandırma kayıplarıyla eğitilmiş. İkinci aşamada ise, konuşmadan dudak pozisyon vektorlerini tahmin eden ses-tabanlı bir transformer yer alıyor.
FlashLips'in devrimci yanı, açık maske kullanmadan çalışabilmesi. Sistem, kendi kendine öğrenme yöntemiyle dudak düzenlemelerini lokalize etmeyi öğrenirken, görüntünün geri kalanını koruyor. Bu yaklaşım, hem kararlı hem de belirleyici bir işlem hattı oluşturuyor.
Bu teknoloji, video konferans uygulamalarından dijital avatarlara, eğlence sektöründen eğitim materyallerine kadar geniş bir kullanım alanına sahip. Özellikle gerçek zamanlı performansı, canlı yayın ve interaktif uygulamalarda büyük avantaj sağlayabilir.