Yapay zeka güvenliği alanında yeni bir gelişme yaşanırken, araştırmacılar kapalı kaynak kodlu çok modlu büyük dil modellerine karşı etkili saldırı yöntemleri geliştirmeye odaklanıyor. Son çalışmalarda ortaya çıkan 'Evrensel Hedefli Aktarılabilir Düşmanca Saldırılar' (UTTAA), bu alandaki en güncel yaklaşımlardan biri haline geliyor.
Geleneksel düşmanca saldırılar genellikle tek bir örnek için özelleştirilmiş olup, farklı girdilerde tekrar kullanılabilirlik sağlamıyor. Yeni araştırma ise daha katı bir yaklaşım benimsiyor: tek bir pertürbasyon ile herhangi bir girdiyi, bilinmeyen ticari yapay zeka modelleri üzerinde tutarlı şekilde belirlenen hedefe yönlendirmek.
Araştırmacılar, bu evrensel yaklaşımda üç temel zorlukla karşılaştıklarını belirtiyor. İlk olarak, hedef-kırpma rastgeleliği nedeniyle hedef gözetimi yüksek varyans gösteriyor. İkinci olarak, evrensellik görüntü-spesifik ipuçlarını bastırdığı için token-bazlı eşleştirme güvenilir olmaktan çıkıyor. Son olarak, hedef başına az kaynak adaptasyonu başlangıç değerlerine oldukça duyarlı hale geliyor.
Bu sorunlara çözüm olarak MCRMO-Attack yöntemi önerilmiş durumda. Bu yaklaşım, ticari yapay zeka modellerinin güvenlik açıklarını systematik olarak test etme imkanı sunuyor ve gelecekteki savunma mekanizmalarının geliştirilmesine katkı sağlayabilir.