Araştırmacılar, monoküler video görüntülerinden 3D mekan anlayışı geliştirebilen yeni bir yapay zeka sistemi geliştirdi. VLM-3R adlı bu sistem, pahalı derinlik sensörlerine ihtiyaç duymadan tek kamera görüntülerinden üç boyutlu yapıları anlayabiliyor. Geleneksel yöntemler dış sensörlere veya önceden hazırlanmış 3D haritalara bağımlıyken, bu yeni yaklaşım doğrudan video karelerini işleyerek geometrik bilgileri çıkarıyor. Sistem, görme-dil modellerini 3D yeniden yapılandırma talimatlarıyla birleştirerek, insan benzeri görsel-uzamsal zeka geliştirebiliyor. Bu gelişme, otonom araçlardan artırılmış gerçekliğe kadar birçok alanda uygulanabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Tek Kameradan İnsan-Nesne Etkileşimini 4D Olarak Yeniden Yapılandıran Yöntem

Araştırmacılar, tek bir RGB kameradan çekilen görüntülerden insan-nesne etkileşimlerini 4D olarak yeniden yapılandırabilen yeni bir yapay zeka sistemi geliştirdi. CARI4D adlı bu sistem, herhangi bir nesne kategorisine bağımlı olmadan çalışabiliyor ve uzamsal-zamansal tutarlılığı koruyor. Geleneksel yöntemler önceden tanımlanmış nesne şablonlarına veya sınırlı nesne kategorilerine ihtiyaç duyarken, bu yeni yaklaşım çok daha esnek bir yapı sunuyor. Sistem, temel yapay zeka modellerinin tahminlerini akıllıca birleştiren bir algoritma kullanıyor ve render-karşılaştır paradigmasıyla sonuçları iyileştiriyor. Bu gelişme, insan davranışlarını anlama, oyun geliştirme ve robot öğrenmesi alanlarında önemli uygulamalara sahip olabilir.

arXiv (CS + AI) 0