Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar büyük görü-dil modellerinin (VLM) 3D uzaysal mantık yürütme konusundaki temel yetersizliklerini gidermek için SpatialStack adlı yenilikçi bir sistem geliştirdi.

Mevcut VLM'ler, fiziksel dünyada faaliyet gösteren yapay zeka sistemleri için hayati öneme sahip olan güvenilir 3D mekansal mantık yürütme konusunda zorlanıyor. Bu sınırlılığın temel nedeni, modellerin ince ayrıntılı 3D geometriyi ve karmaşık uzaysal ilişkileri etkili şekilde kavrayamaması.

Son dönemde yapılan çalışmalar, VLM'lere çok görüşlü geometri dönüştürücüleri dahil etmeye odaklanmış ancak bu yaklaşımlar genellikle sadece görü ve geometri kodlayıcılarından gelen derin katman özelliklerini birleştiriyor. Bu durum, zengin hiyerarşik sinyallerin kaybolmasına ve mekansal anlama için temel bir darboğaz yaratılmasına neden oluyor.

SpatialStack, bu sorunu çözmek için görsel, geometrik ve dil temsillerini model hiyerarşisi boyunca aşamalı olarak hizalayan genel bir hiyerarşik füzyon çerçevesi öneriyor. Geleneksel geç aşama görü-geometri birleşiminin ötesine geçen bu sistem, çok seviyeli geometrik özellikleri dil omurgasıyla yığınlayarak ve senkronize ederek modelin hem yerel geometrik hassasiyeti hem de küresel bağlamsal semantiği yakalama kapasitesini artırıyor.