Teknoloji & Yapay Zeka

Otonom Araçlar İçin Tek Adımda Görsel-Dil Tabanlı Akıl Yürütme Sistemi

Araştırmacılar, otonom sürüş teknolojisinde devrim yaratabilecek OneVL adlı yeni bir sistem geliştirdi. Mevcut yapay zeka sistemleri, adım adım düşünce zinciri (Chain-of-Thought) yöntemiyle karar verirken, bu süreç gerçek zamanlı kullanım için çok yavaş kalıyor. OneVL, bu sorunu tek adımda hem görsel hem de dil tabanlı akıl yürütme yaparak çözüyor. Sistem, sadece metinsel açıklamalarla değil, aynı zamanda gelecekteki görüntü karelerini tahmin eden görsel bir dünya modeli ile de çalışıyor. Bu yaklaşım, sürüşü yöneten gerçek nedensel dinamikleri daha iyi anlayarak, hem hızlı hem de doğru kararlar verebilen otonom araçlar geliştirilmesini sağlıyor.

Otonom araç teknolojisinde önemli bir adım atan araştırmacılar, OneVL (Tek Adımda Gizli Akıl Yürütme ve Planlama) adlı yenilikçi bir sistem geliştirdi. Bu sistem, mevcut yapay zeka modellerinin en büyük sorunu olan hız-doğruluk dengesini çözmeyi hedefliyor.

Günümüzde otonom araçlarda kullanılan Görsel-Dil Eylem (VLA) modelleri, karar verme sürecinde Düşünce Zinciri (Chain-of-Thought) adı verilen adım adım akıl yürütme yöntemini kullanıyor. Bu yöntem oldukça başarılı olmakla birlikte, her adımı sırayla işlediği için gerçek zamanlı sürüş için gerekli hızda çalışamıyor.

OneVL, bu problemi tamamen farklı bir yaklaşımla çözüyor. Sistem, akıl yürütme sürecini tek bir adımda gerçekleştiren kompakt gizli belirteçler (latent tokens) kullanıyor. En önemli yenilik ise sistemin ikili bir denetim yapısına sahip olması: bir tarafta metin tabanlı düşünce zincirini yeniden oluşturan dil çözücüsü, diğer tarafta gelecekteki görüntü karelerini tahmin eden görsel dünya modeli çözücüsü bulunuyor.

Araştırmacılar, önceki gizli akıl yürütme yöntemlerinin başarısız olmasının nedenini, sadece dilsel temsillere odaklanıp sürüşü gerçekten yöneten fiziksel dinamikleri ihmal etmelerine bağlıyor. OneVL, hem dilsel hem de görsel bilgiyi birleştirerek bu eksikliği gideriyor ve otonom sürüş teknolojisinde yeni bir standart oluşturmayı hedefliyor.

Özgün Kaynak
arXiv (CS + AI)
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.