Otonom Araçlar İçin Yeni Bakış Takip Sistemi: Metinden Nesneye Geçiş

Araştırmacılar, otonom araçların sürücü davranışlarını daha iyi taklit edebilmesi için yeni bir görsel dikkat tahmin sistemi geliştirdi. Mevcut sistemler sadece genel sahne görüntülerini analiz edebiliyordu, ancak yeni yaklaşım her bir nesneyi ayrı ayrı değerlendiriyor. G-W3DA adı verilen özel veri seti kullanılarak geliştirilen sistem, büyük dil modellerini görüntü segmentasyonu teknolojisi ile birleştiriyor. Bu sayede otonom araçlar, yalnızca nereye bakması gerektiğini değil, hangi nesnelere odaklanması gerektiğini de öğrenebiliyor. Sistem, sürücülerin dikkatini nesne düzeyinde modelleyerek daha güvenli ve insan benzeri sürüş davranışları sergileyebilir.

Otonom araç teknolojisinde önemli bir adım atılarak, sürücülerin görsel dikkatini nesne düzeyinde modelleyen yeni bir sistem geliştirildi. Bu araştırma, mevcut sistemlerin sadece genel sahne analizi yapabilme sınırlılığını aşmayı hedefliyor.

Geleneksel yaklaşımlar, sürücülerin dikkatini ısı haritaları şeklinde genel bir perspektiften değerlendiriyordu. Ancak bu yöntem, sürücülerin hangi spesifik nesnelere odaklandığını belirleme konusunda yetersiz kalıyordu. Yeni geliştirilen çift dalı bakış tahmin çerçevesi, bu sorunu çözmek için nesne odaklı bir yaklaşım benimsiyor.

Araştırmacılar, G-W3DA adını verdikleri özel bir veri seti oluşturdular. Bu veri seti, büyük dil modellerini SAM3 (Segment Anything Model 3) teknolojisiyle birleştirerek, makroskopik ısı haritalarını nesne düzeyindeki maskelere dönüştürüyor. Bu süreç, çapraz doğrulama yöntemleriyle titizlikle kontrol ediliyor.

Sistem, görsel-dil modellerinin semantik muhakeme potansiyelini kullanarak, metin tabanlı bilişsel modellemeyi destekliyor. Bu sayede otonom araçlar, insan sürücülerin davranış kalıplarını daha doğru bir şekilde taklit edebiliyor ve güvenli sürüş için kritik olan görsel dikkat dağılımını optimize edebiliyor.