Görüntü ve metin işleme yeteneklerini birleştiren büyük görme-dil modelleri, günümüzde çok çeşitli multimodal saldırılara karşı savunmasız durumda bulunuyor. Bu durum, hem yeni tehditlere karşı genellenebilir hem de pratik kullanımda verimli olan savunma mekanizmalarına duyulan ihtiyacı artırıyor.
Mevcut koruma stratejileri önemli eksiklikler taşıyor. Bazıları yalnızca belirli saldırı kalıplarını hedef aldığından genelleme yeteneği sınırlı kalıyor. Diğerleri ise yüksek hesaplama maliyeti getiriyor ve pratik uygulamada zorluk yaratıyor.
Hafif anomali tespit yöntemleri umut verici bir yön sunsa da, araştırmacılar bu yaklaşımların tek sınıflı tasarımının bir sorunu olduğunu keşfetti: Daha önce görülmemiş zararsız girişleri zararlı olanlarla karıştırma eğilimi gösteriyorlar ve bu da güvenilmez aşırı reddetmeye yol açıyor.
Bu soruna çözüm olarak geliştirilen Temsili Karşıtsal Puanlama (RCS) framework'ü, önemli bir kavrayışa dayanıyor: En güçlü güvenlik sinyalleri, LVLM'lerin kendi iç temsillerinde gizli. Bu yaklaşım, güvenlik açısından kritik katmanlarda temsillerin iç geometrisini inceleyerek, zararlı ve zararsız girişleri maksimum düzeyde ayırabilen hafif bir projeksiyon öğreniyor.
Bu yenilikçi yöntem, hem computational verimlilik sağlayarak pratik kullanımı mümkün kılıyor hem de önceden görülmemiş saldırı türlerine karşı daha iyi genelleme yeteneği sunuyor.