Otonom araç teknolojisinde önemli bir adım atılarak, sürücülerin görsel dikkatini nesne düzeyinde modelleyen yeni bir sistem geliştirildi. Bu araştırma, mevcut sistemlerin sadece genel sahne analizi yapabilme sınırlılığını aşmayı hedefliyor.
Geleneksel yaklaşımlar, sürücülerin dikkatini ısı haritaları şeklinde genel bir perspektiften değerlendiriyordu. Ancak bu yöntem, sürücülerin hangi spesifik nesnelere odaklandığını belirleme konusunda yetersiz kalıyordu. Yeni geliştirilen çift dalı bakış tahmin çerçevesi, bu sorunu çözmek için nesne odaklı bir yaklaşım benimsiyor.
Araştırmacılar, G-W3DA adını verdikleri özel bir veri seti oluşturdular. Bu veri seti, büyük dil modellerini SAM3 (Segment Anything Model 3) teknolojisiyle birleştirerek, makroskopik ısı haritalarını nesne düzeyindeki maskelere dönüştürüyor. Bu süreç, çapraz doğrulama yöntemleriyle titizlikle kontrol ediliyor.
Sistem, görsel-dil modellerinin semantik muhakeme potansiyelini kullanarak, metin tabanlı bilişsel modellemeyi destekliyor. Bu sayede otonom araçlar, insan sürücülerin davranış kalıplarını daha doğru bir şekilde taklit edebiliyor ve güvenli sürüş için kritik olan görsel dikkat dağılımını optimize edebiliyor.