Araştırmacılar, tek bir RGB kameradan çekilen görüntülerden insan-nesne etkileşimlerini 4D olarak yeniden yapılandırabilen yeni bir yapay zeka sistemi geliştirdi. CARI4D adlı bu sistem, herhangi bir nesne kategorisine bağımlı olmadan çalışabiliyor ve uzamsal-zamansal tutarlılığı koruyor. Geleneksel yöntemler önceden tanımlanmış nesne şablonlarına veya sınırlı nesne kategorilerine ihtiyaç duyarken, bu yeni yaklaşım çok daha esnek bir yapı sunuyor. Sistem, temel yapay zeka modellerinin tahminlerini akıllıca birleştiren bir algoritma kullanıyor ve render-karşılaştır paradigmasıyla sonuçları iyileştiriyor. Bu gelişme, insan davranışlarını anlama, oyun geliştirme ve robot öğrenmesi alanlarında önemli uygulamalara sahip olabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

OmniShow: Metin, ses ve görüntüden gerçekçi insan-nesne etkileşim videoları üretiyor

Araştırmacılar, metin açıklaması, referans görüntüler, ses ve vücut pozları gibi farklı veri türlerini birleştirerek gerçekçi insan-nesne etkileşim videoları üreten OmniShow adlı yeni bir yapay zeka sistemi geliştirdi. Bu teknoloji, e-ticaret tanıtımları, kısa video üretimi ve etkileşimli eğlence içerikleri için otomatik içerik oluşturma konusunda önemli pratik değere sahip. Sistem, farklı koşulları uyumlu şekilde işleyerek endüstri seviyesinde performans sunuyor. Geliştirilen Unified Channel-wise Conditioning tekniği verimli görüntü ve poz enjeksiyonu sağlarken, Gated Local-Context Attention özelliği ses-görüntü senkronizasyonunu hassas şekilde gerçekleştiriyor.

arXiv (CS + AI) 0