Çok modlu büyük dil modelleri 2D görüntü işlemede kayda değer başarılar gösterince, araştırmacılar bu teknolojileri 3D sahne anlayışına genişletme yollarını araştırmaya başladı. Son çalışmalar, 3D sahneleri derinlik ve kamera konum bilgileri içeren görüntü dizilerinden oluşan 3D uzamsal videolar olarak temsil ediyor.

Ancak bu yaklaşımın önemli bir sorunu var: uzamsal videolardaki görsel veri miktarının fazla olması, modellerin verimli çalışmasını engelliyor. Mevcut veri azaltma yöntemleri, uzamsal videoların görüş tutarlılığını ve kalan verilerin uzamsal çeşitliliğini göz ardı ediyor.

Bu soruna çözüm olarak geliştirilen Geo3DPruner sistemi, geometri rehberliğinde çalışan yenilikçi bir yaklaşım benimsiyor. Sistem önce kareler arası ilişkiyi geometri-farkında küresel dikkat mekanizmasıyla modelliyor, ardından iki aşamalı bir budama işlemi gerçekleştiriyor.

Bu yöntem, kareler arasındaki gereksiz tekrarları etkili şekilde kaldırırken sahnenin bütünlüğünü koruyor. Böylece 3D sahne anlama modellerinin hem daha hızlı çalışması hem de daha az bellek kullanması sağlanıyor.

Geo3DPruner'ın getirdiği optimizasyon, 3D sahne anlama teknolojilerinin pratik uygulamalarda daha yaygın kullanılabilmesinin önünü açıyor.