Stanford ve diğer kurumlardan araştırmacılar, bilgisayarlı görü alanında çığır açabilecek yeni bir yapay zeka modeli geliştirdi. 'Rays as Pixels' (Piksel Olarak Işınlar) adı verilen bu sistem, video üretimi ve kamera parametrelerini tahmin etmeyi tek bir çatı altında birleştiren ilk model olma özelliğini taşıyor.
Geleneksel yaklaşımlarda, görüntülerden kamera parametrelerini çıkarma ve yeni bakış açılarından sahne render etme işlemleri ayrı görevler olarak ele alınıyordu. Ancak bu ayrım, görüntü kapsamının seyrek olduğu veya kamera pozisyonlarının belirsiz olduğu durumlarda sorunlara yol açıyordu, çünkü her görev diğerinin ürettiği sonuçlara bağımlıydı.
Yeni sistem, her kamerayı 'raxel' adı verilen yoğun ışın pikselleriyle temsil ediyor. Bu piksel hizalı kodlama, video kareleriyle aynı gizli uzayda yaşıyor ve her ikisi de Ayrıştırılmış Öz-Çapraz Dikkat mekanizması aracılığıyla birlikte işleniyor. Bu yaklaşım, Video Difüzyon Modeli (VDM) mimarisini kullanarak videolar ve kamera yörüngeleri üzerinde ortak bir dağılım öğreniyor.
Tek bir eğitilmiş model üç önemli görevi yerine getirebiliyor: videodan kamera yörüngelerini tahmin etme, önceden tanımlanmış bir yörünge boyunca giriş görüntülerinden video üretme ve video ile kamera hareketlerini birlikte sentezleme. Bu çok işlevlilik, özellikle sanal gerçeklik, artırılmış gerçeklik ve sinematografi uygulamaları için önemli potansiyel taşıyor.