Teknoloji & Yapay Zeka

Yapay Zeka Güvenlik Sistemleri Edebiyat Tarzı Saldırılara Karşı Savunmasız

Yapay zeka modellerinin güvenlik sistemleri, zararlı taleplerin edebiyat tarzında yazılması durumunda büyük ölçüde başarısız oluyor. Araştırmacıların geliştirdiği Adversarial Humanities Benchmark (AHB) testi, 31 gelişmiş yapay zeka modelinde yapılan denemelerde şaşırtıcı sonuçlar ortaya koydu. Normal zararlı talepler %3,84 başarı oranıyla engellenirken, aynı talepler şiir, hikaye veya diğer edebi formlarla sunulduğunda %36,8 ile %65 arasında değişen oranlarda başarılı oluyor. Bu durum, mevcut güvenlik tekniklerinin stilistik değişikliklere karşı yetersiz kaldığını gösteriyor. Özellikle kimyasal, biyolojik, radyolojik ve nükleer konularda risk oranının en yüksek çıkması endişe verici. Bulgular, yapay zeka güvenlik sistemlerinin yalnızca bilinen zararlı prompt formatlarına odaklandığını ve yaratıcı yaklaşımlara karşı savunmasız kaldığını ortaya koyuyor.

Yapay zeka güvenlik sistemlerinin önemli bir açığı keşfedildi. Araştırmacılar, zararlı taleplerin edebiyat tarzında yeniden yazılması durumunda mevcut güvenlik önlemlerinin büyük ölçüde etkisiz hale geldiğini ortaya koydu.

Adversarial Humanities Benchmark (AHB) adlı yeni test sistemi, 31 gelişmiş yapay zeka modelinde kapsamlı deneyler gerçekleştirdi. Sonuçlar oldukça çarpıcı: Normal formatta sunulan zararlı talepler %3,84 başarı oranıyla sistemleri aldatabilirken, aynı talepler şiir, hikaye veya diğer edebi stillerle sunulduğunda bu oran dramatik şekilde artıyor.

Edebiyat tarzında yapılan saldırıların başarı oranı %36,8 ile %65 arasında değişiyor ve genel ortalama %55,75'e ulaşıyor. Bu bulgular, mevcut güvenlik tekniklerinin yalnızca bilinen zararlı prompt formatlarına karşı etkili olduğunu, ancak yaratıcı ve stilistik değişikliklere karşı savunmasız kaldığını gösteriyor.

Araştırmada özellikle endişe verici olan nokta, kimyasal, biyolojik, radyolojik ve nükleer (CBRN) konularında risk seviyesinin en yüksek çıkması. Bu durum, Avrupa Birliği Yapay Zeka Yasası'nın sistemik risk değerlendirme kriterleri açısından önemli güvenlik açıkları işaret ediyor.

Bulgular, yapay zeka güvenlik sistemlerinin geliştirilmesi gereken önemli alanları ortaya koyuyor ve daha sofistike güvenlik önlemlerine duyulan ihtiyacı vurguluyor.

Özgün Kaynak
arXiv (CS + AI)
Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.