Yapay zeka destekli video üretimi alanında önemli bir gelişme yaşandı. Araştırmacılar, büyük dil modellerinde kullanılan spekülatif çözümleme tekniğini video üretimi için uyarlayarak, işlem hızını artırmayı başardı.
SDVG adı verilen yeni sistem, otoregressif video difüzyonunda önemli bir zorluğu çözdü. Video blokları sürekli uzamsal-zamansal tensörler olduğu için, metin üretimindeki gibi token seviyesinde dağılım bulunmaz. Bu durum, geleneksel spekülatif çözümleme yöntemlerinin doğrudan uygulanmasını zorlaştırıyordu.
Çözüm olarak araştırmacılar, token doğrulama yerine görüntü kalitesi yönlendiricisi kullandı. Sistem, 1.3 milyar parametreli bir taslakçı model ile adayblock'lar üretir ve bu blokları dört gürültü giderme adımı ile işler. Her blok VAE kod çözücü ile işlendikten sonra, ImageReward sistemi ile puanlanır.
Sistemin en önemli özelliklerinden biri, 'en kötü çerçeve toplama' yaklaşımıdır. Bu yöntem, ortalama alma işleminin gizleyebileceği tek çerçeveli hataları yakalamak için her çerçevenin minimum ödülünü alır. Belirli bir eşik değerin üzerinde puan alan bloklar kabul edilir.
Bu gelişme, akış video sentezi alanında yeni olanaklar sunuyor ve video üretim süreçlerinin daha verimli hale gelmesini sağlıyor.