Yapay Zeka Görme Sistemlerinde Güvenlik Açıklarına Karşı Yeni Savunma Yöntemi

Büyük görme-dil modelleri (LVLM), multimodal saldırılara karşı savunmasız durumda. Mevcut koruma yöntemleri ya belirli saldırı türlerine odaklanıyor ya da çok fazla hesaplama gücü gerektiriyor. Araştırmacılar, bu modellerin kendi iç temsillerinden güvenlik sinyalleri çıkaran Temsili Karşıtsal Puanlama (RCS) adında yeni bir framework geliştirdi. Bu yaklaşım, güvenlik açısından kritik katmanlarda zararlı ve zararsız girişleri ayırmak için hafif bir projeksiyon öğreniyor. Böylece hem yeni tehditlere karşı genelleme yapabiliyor hem de pratik kullanım için verimli çalışıyor.

Görüntü ve metin işleme yeteneklerini birleştiren büyük görme-dil modelleri, günümüzde çok çeşitli multimodal saldırılara karşı savunmasız durumda bulunuyor. Bu durum, hem yeni tehditlere karşı genellenebilir hem de pratik kullanımda verimli olan savunma mekanizmalarına duyulan ihtiyacı artırıyor.

Mevcut koruma stratejileri önemli eksiklikler taşıyor. Bazıları yalnızca belirli saldırı kalıplarını hedef aldığından genelleme yeteneği sınırlı kalıyor. Diğerleri ise yüksek hesaplama maliyeti getiriyor ve pratik uygulamada zorluk yaratıyor.

Hafif anomali tespit yöntemleri umut verici bir yön sunsa da, araştırmacılar bu yaklaşımların tek sınıflı tasarımının bir sorunu olduğunu keşfetti: Daha önce görülmemiş zararsız girişleri zararlı olanlarla karıştırma eğilimi gösteriyorlar ve bu da güvenilmez aşırı reddetmeye yol açıyor.

Bu soruna çözüm olarak geliştirilen Temsili Karşıtsal Puanlama (RCS) framework'ü, önemli bir kavrayışa dayanıyor: En güçlü güvenlik sinyalleri, LVLM'lerin kendi iç temsillerinde gizli. Bu yaklaşım, güvenlik açısından kritik katmanlarda temsillerin iç geometrisini inceleyerek, zararlı ve zararsız girişleri maksimum düzeyde ayırabilen hafif bir projeksiyon öğreniyor.

Bu yenilikçi yöntem, hem computational verimlilik sağlayarak pratik kullanımı mümkün kılıyor hem de önceden görülmemiş saldırı türlerine karşı daha iyi genelleme yeteneği sunuyor.