Stanford Üniversitesi araştırmacıları, yapay zekanın görsel sahneleri anlama biçimini kökten değiştiren yenilikçi bir model geliştirdi. FlowSG adı verilen bu sistem, görüntülerdeki nesneleri ve aralarındaki ilişkileri geleneksel yöntemlerden farklı bir yaklaşımla analiz ediyor.

Mevcut sahne grafiği üretim sistemleri, görüntüleri tek seferde analiz ederek nesneleri ve ilişkileri belirliyor. FlowSG ise bu süreci kademeli bir inşa süreci olarak ele alıyor. Model, başlangıçta gürültülü bir graftan hareket ederek, görüntüden aldığı ipuçlarıyla sahnedeki nesneleri ve bunlar arasındaki bağlantıları adım adım keşfediyor.

Sistem, hibrit bir yaklaşım benimsiyor: sürekli geometrik bilgileri (nesne konumları) taşırken, aynı zamanda ayrık kategorik bilgileri (nesne türleri ve ilişki etiketleri) güncelliyor. Bu ikili yapı, modelin hem mekansal hem de anlamsal bilgiyi eş zamanlı işlemesini sağlıyor.

Araştırma ekibi, VQ-VAE adı verilen bir teknik kullanarak sahne graflarını kompakt tokenlere dönüştürüyor. Ardından graf Transformer'ı, bu tokenları kullanarak hem nesne konumlarını hem de kategorik etiketleri progressive bir şekilde iyileştiriyor.

Bu yenilikçi yaklaşım, robotik sistemler, otonom araçlar ve görsel asistan uygulamalar için önemli potansiyel taşıyor.