Yapay Zeka Video ve Kamera Hareketlerini Birlikte Öğreniyor

Araştırmacılar, video üretimi ve kamera pozisyonu tahminini tek bir model içinde birleştiren yenilikçi bir yapay zeka sistemi geliştirdi. 'Rays as Pixels' adı verilen bu sistem, geleneksel bilgisayarlı görü yaklaşımlarından farklı olarak video karelerini ve kamera hareketlerini aynı anda işleyebiliyor. Sistem, her kamerayı yoğun ışın pikselleri (raxels) olarak temsil ederek, video kareleriyle aynı gizli uzayda çalışıyor. Bu yaklaşım, özellikle görüntü kapsamının seyrek olduğu veya kamera pozisyonlarının belirsiz olduğu durumlarda önemli avantajlar sunuyor. Model üç farklı görevi yerine getirebiliyor: videodan kamera yörüngelerini tahmin etme, önceden tanımlanmış bir yörünge boyunca görüntülerden video üretme ve video ile kamera hareketlerini birlikte sentezleme.

Stanford ve diğer kurumlardan araştırmacılar, bilgisayarlı görü alanında çığır açabilecek yeni bir yapay zeka modeli geliştirdi. 'Rays as Pixels' (Piksel Olarak Işınlar) adı verilen bu sistem, video üretimi ve kamera parametrelerini tahmin etmeyi tek bir çatı altında birleştiren ilk model olma özelliğini taşıyor.

Geleneksel yaklaşımlarda, görüntülerden kamera parametrelerini çıkarma ve yeni bakış açılarından sahne render etme işlemleri ayrı görevler olarak ele alınıyordu. Ancak bu ayrım, görüntü kapsamının seyrek olduğu veya kamera pozisyonlarının belirsiz olduğu durumlarda sorunlara yol açıyordu, çünkü her görev diğerinin ürettiği sonuçlara bağımlıydı.

Yeni sistem, her kamerayı 'raxel' adı verilen yoğun ışın pikselleriyle temsil ediyor. Bu piksel hizalı kodlama, video kareleriyle aynı gizli uzayda yaşıyor ve her ikisi de Ayrıştırılmış Öz-Çapraz Dikkat mekanizması aracılığıyla birlikte işleniyor. Bu yaklaşım, Video Difüzyon Modeli (VDM) mimarisini kullanarak videolar ve kamera yörüngeleri üzerinde ortak bir dağılım öğreniyor.

Tek bir eğitilmiş model üç önemli görevi yerine getirebiliyor: videodan kamera yörüngelerini tahmin etme, önceden tanımlanmış bir yörünge boyunca giriş görüntülerinden video üretme ve video ile kamera hareketlerini birlikte sentezleme. Bu çok işlevlilik, özellikle sanal gerçeklik, artırılmış gerçeklik ve sinematografi uygulamaları için önemli potansiyel taşıyor.