Büyük görme-dil modelleri, görsel içerikleri metinle açıklama konusunda etkileyici yetenekler sergilerken, ciddi bir sorunla karşı karşıya: görsel gerçekliği görmezden gelip metin komutlarına körü körüne uyma eğilimi.

Araştırmacılar bu problemi kontrollü bir ortamda inceledi. Modellere görüntüdeki nesne sayısından fazla sayı içeren komutlar verildi - örneğin, üç nilüfer çiçeği bulunan görselde dört çiçekten bahsedilmesi istendi. Sonuçlar dikkat çekiciydi: az sayıda nesne içeren görüntülerde modeller genellikle yanlış bilgiyi düzeltiyor, ancak nesne sayısı arttıkça gerçeklikle komut arasındaki çelişkiyi görmezden gelmeye başlıyordu.

Üç farklı görme-dil modelinin mekanistik analizi, bu 'komut kaynaklı halüsinasyonlardan' sorumlu küçük bir dikkat kafası grubunu ortaya çıkardı. Bu bileşenlerin devre dışı bırakılması, herhangi bir ek eğitim gerektirmeden yanılsamaları en az %40 oranında azalttı.

Araştırma, farklı modellerdeki bu dikkat kafalarının benzer işlevleri farklı yollarla gerçekleştirdiğini gösteriyor. Bu mekanizmaların etkisizleştirilmesi, modellerin görsel kanıtlara dayalı düzeltmeler yapma eğilimini artırıyor.

Bu keşif, yapay zeka modellerinin güvenilirliğini artırmaya yönelik pratik çözümler sunuyor ve modellerin iç çalışma mekanizmalarını anlamamızı derinleştiriyor.