OmniShow: Metin, ses ve görüntüden gerçekçi insan-nesne etkileşim videoları üretiyor

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, metin açıklaması, referans görüntüler, ses ve vücut pozları gibi farklı veri türlerini birleştirerek gerçekçi insan-nesne etkileşim videoları üreten OmniShow adlı yeni bir yapay zeka sistemi geliştirdi. Bu teknoloji, e-ticaret tanıtımları, kısa video üretimi ve etkileşimli eğlence içerikleri için otomatik içerik oluşturma konusunda önemli pratik değere sahip. Sistem, farklı koşulları uyumlu şekilde işleyerek endüstri seviyesinde performans sunuyor. Geliştirilen Unified Channel-wise Conditioning tekniği verimli görüntü ve poz enjeksiyonu sağlarken, Gated Local-Context Attention özelliği ses-görüntü senkronizasyonunu hassas şekilde gerçekleştiriyor.

Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar farklı veri türlerini harmanlayarak gerçekçi videolar üreten yeni bir sistem geliştirildi. OmniShow adı verilen bu framework, metin, referans görüntüler, ses ve vücut pozları gibi çoklu modaliteleri birleştirerek insan-nesne etkileşim videoları üretebiliyor.

Bu teknolojinin en dikkat çekici yanı, farklı girdi türlerini aynı anda işleyebilme kapasitesi. Geleneksel yaklaşımlar genellikle tek bir koşul türüyle sınırlı kalırken, OmniShow tüm bu gereksinimleri karşılayabilen ilk kapsamlı çözüm olma özelliği taşıyor.

Sistemin teknik altyapısında iki önemli yenilik bulunuyor. Unified Channel-wise Conditioning tekniği, görüntü ve poz verilerinin verimli şekilde sisteme enjekte edilmesini sağlıyor. Gated Local-Context Attention mekanizması ise ses ve görüntü arasındaki senkronizasyonu hassas şekilde kontrol ediyor.

Veri yetersizliği sorununu çözmek için de özgün yaklaşımlar geliştirilmiş. Bu sayede sistem, sınırlı eğitim verisiyle bile yüksek kaliteli sonuçlar üretebiliyor.

Teknolojinin uygulama alanları oldukça geniş: e-ticaret sitelerindeki ürün tanıtım videoları, sosyal medya için kısa video içerikleri ve etkileşimli eğlence uygulamaları gibi sektörlerde devrim yaratma potansiyeli taşıyor.

Etiketler

#yapay zeka #video üretimi #çoklu modal #insan-nesne etkileşimi #içerik oluşturma

Özgün Kaynak

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

https://arxiv.org/abs/2604.11804

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.