Yapay zeka güvenlik sistemlerinin önemli bir açığı keşfedildi. Araştırmacılar, zararlı taleplerin edebiyat tarzında yeniden yazılması durumunda mevcut güvenlik önlemlerinin büyük ölçüde etkisiz hale geldiğini ortaya koydu.
Adversarial Humanities Benchmark (AHB) adlı yeni test sistemi, 31 gelişmiş yapay zeka modelinde kapsamlı deneyler gerçekleştirdi. Sonuçlar oldukça çarpıcı: Normal formatta sunulan zararlı talepler %3,84 başarı oranıyla sistemleri aldatabilirken, aynı talepler şiir, hikaye veya diğer edebi stillerle sunulduğunda bu oran dramatik şekilde artıyor.
Edebiyat tarzında yapılan saldırıların başarı oranı %36,8 ile %65 arasında değişiyor ve genel ortalama %55,75'e ulaşıyor. Bu bulgular, mevcut güvenlik tekniklerinin yalnızca bilinen zararlı prompt formatlarına karşı etkili olduğunu, ancak yaratıcı ve stilistik değişikliklere karşı savunmasız kaldığını gösteriyor.
Araştırmada özellikle endişe verici olan nokta, kimyasal, biyolojik, radyolojik ve nükleer (CBRN) konularında risk seviyesinin en yüksek çıkması. Bu durum, Avrupa Birliği Yapay Zeka Yasası'nın sistemik risk değerlendirme kriterleri açısından önemli güvenlik açıkları işaret ediyor.
Bulgular, yapay zeka güvenlik sistemlerinin geliştirilmesi gereken önemli alanları ortaya koyuyor ve daha sofistike güvenlik önlemlerine duyulan ihtiyacı vurguluyor.