Stanford ve diğer kurumlardan araştırmacılar, robotik alanında önemli bir sorunu çözen yenilikçi bir sistem geliştirdi. X-WAM (Unified 4D World Action Model) adı verilen bu teknoloji, robotların gerçek zamanlı hareket etmesi ile çevrelerinin yüksek kaliteli 4 boyutlu modellemesini tek bir çerçevede birleştiriyor.
Geleneksel robotik sistemlerde büyük bir ikilem vardı: ya robotlar hızlı hareket edebiliyor ama çevrelerini iyi algılayamıyordu, ya da çevreyi iyi modelliyordu ama yavaş kalıyordu. X-WAM bu sorunu, önceden eğitilmiş video difüzyon modellerinin güçlü görsel önyargılarından yararlanarak çözüyor.
Sistemin çalışma prensibi oldukça akıllıca: Geleceği tahmin etmek için çok açılı RGB-D videoları üretiyor ve uzamsal bilgileri verimli şekilde elde etmek için hafif bir yapısal uyarlama kullanıyor. Bu uyarlama, önceden eğitilmiş Difüzyon Transformatörünün son birkaç bloğunu, gelecekteki uzamsal bilgilerin yeniden yapılandırılması için özel bir derinlik tahmin dalına kopyalıyor.
Araştırmacıların geliştirdiği Asenkron Gürültü Örnekleme (ANS) tekniği ise sistemin verimliliğini artırıyor. Bu yöntem, üretim kalitesi ile hareket çözümleme verimliliği arasında optimal denge kuruyor ve robotların hem kaliteli çevre algısına sahip olmasını hem de hızlı tepki verebilmesini sağlıyor.