Yapay zeka alanındaki en büyük sorunlardan biri, büyük görsel-dil modellerinin (LVLM) bazen gerçekte olmayan şeyleri 'gördüğünü' iddia etmesi - yani halüsinasyon yaşaması. Bu durum, modelin dil önyargılarının görsel kanıtlara baskın gelmesiyle ortaya çıkıyor.

Araştırmacılar bu problemi çözmek için Dikkat-uzayı Kontrastif Rehberlik (ACG) adlı yenilikçi bir yöntem geliştirdi. ACG, modelin ürettiği metni görsel temelli ve semantik olarak doğru hale getirmek için kontrastif rehberlik kullanan, eğitim gerektirmeyen bir yaklaşım.

Yöntemin en önemli özelliği, halüsinasyonlara neden olan çapraz-modal önyargıların ortaya çıktığı dikkat katmanlarında doğrudan çalışması. ACG, tek bir ileri geçişte hem görsel-koşullu hem de yaklaşık metin-odaklı dikkat yolları oluşturuyor. Bu sayede hatalar çıktı katmanında birikmeden önce etkili rehberlik sağlıyor.

Maskeleme tabanlı bu yaklaşımın yaklaşım önyargısı getirebileceği göz önünde bulundurularak, araştırmacılar metin-odaklı yolla hizalanmış bileşenleri bastıran hafif bir ortogonal projeksiyon da uyguluyor. Böylece modelin görsel bilgilere daha fazla odaklanması sağlanıyor.