Teknoloji & Yapay Zeka

Yapay zeka modellerine karşı evrensel saldırı yöntemi geliştirildi

Araştırmacılar, kapalı kaynak kodlu çok modlu büyük dil modellerine (MLLM) karşı yeni bir saldırı türü geliştirdi. 'Evrensel Hedefli Aktarılabilir Düşmanca Saldırılar' adı verilen bu yöntem, tek bir pertürbasyon kullanarak farklı girdileri tutarlı şekilde belirli bir hedefe yönlendirebiliyor. Geleneksel saldırıların aksine, bu yaklaşım örnek-spesifik değil ve birden fazla girdi üzerinde tekrar kullanılabilir. Araştırma, ticari yapay zeka modellerinin güvenlik açıklarını ortaya koyması açısından önemli. Çalışma, hedef gözetimindeki yüksek varyans, token-bazlı eşleştirmenin güvenilmezliği ve başlangıç değerlerine duyarlılık gibi temel zorlukları ele alıyor. MCRMO-Attack adlı önerilen yöntem, bu sorunlara çözüm getirmeyi hedefliyor.

Yapay zeka güvenliği alanında yeni bir gelişme yaşanırken, araştırmacılar kapalı kaynak kodlu çok modlu büyük dil modellerine karşı etkili saldırı yöntemleri geliştirmeye odaklanıyor. Son çalışmalarda ortaya çıkan 'Evrensel Hedefli Aktarılabilir Düşmanca Saldırılar' (UTTAA), bu alandaki en güncel yaklaşımlardan biri haline geliyor.

Geleneksel düşmanca saldırılar genellikle tek bir örnek için özelleştirilmiş olup, farklı girdilerde tekrar kullanılabilirlik sağlamıyor. Yeni araştırma ise daha katı bir yaklaşım benimsiyor: tek bir pertürbasyon ile herhangi bir girdiyi, bilinmeyen ticari yapay zeka modelleri üzerinde tutarlı şekilde belirlenen hedefe yönlendirmek.

Araştırmacılar, bu evrensel yaklaşımda üç temel zorlukla karşılaştıklarını belirtiyor. İlk olarak, hedef-kırpma rastgeleliği nedeniyle hedef gözetimi yüksek varyans gösteriyor. İkinci olarak, evrensellik görüntü-spesifik ipuçlarını bastırdığı için token-bazlı eşleştirme güvenilir olmaktan çıkıyor. Son olarak, hedef başına az kaynak adaptasyonu başlangıç değerlerine oldukça duyarlı hale geliyor.

Bu sorunlara çözüm olarak MCRMO-Attack yöntemi önerilmiş durumda. Bu yaklaşım, ticari yapay zeka modellerinin güvenlik açıklarını systematik olarak test etme imkanı sunuyor ve gelecekteki savunma mekanizmalarının geliştirilmesine katkı sağlayabilir.

Özgün Kaynak
arXiv (CS + AI)
Universal Adversarial Attacks against Closed-Source MLLMs via Target-View Routed Meta Optimization
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.