Yapay zeka sistemlerinin güvenliğini değerlendirmek için yeni bir yaklaşım geliştirildi. Geleneksel güvenlik analizlerinin aksine, bu çalışma kullanıcının sorusu ile yapay zekanın cevabı arasındaki risk değişimini eşleştirerek inceliyor.

Araştırmacılar, Azure AI İçerik Güvenliği taksonomisine uygun olarak tasarlanmış 1250 soru-cevap çiftini analiz etti. Nefret söylemi, cinsel içerik, şiddet ve kendine zarar verme olmak üzere dört ana kategori ile farklı şiddet seviyeleri değerlendirildi.

Sonuçlar oldukça cesaret verici: Yapay zeka yanıtlarının %61'i girdiye göre zararlılığı azaltırken, %36'sı aynı seviyeyi korudu ve sadece %3'ü daha zararlı hale geldi. Bu durum, mevcut güvenlik sistemlerinin genel olarak etkili çalıştığını gösteriyor.

Ancak kategori bazında farklılıklar dikkat çekici. Cinsel içeriğin zararsızlaştırılması, nefret söylemi veya şiddete göre üç kat daha zor görünüyor. Bu zorluk özellikle halihazırda cinsel içerik barındıran sorularda kendini gösteriyor.

Araştırma, yapay zeka güvenliği alanında daha detaylı risk analizlerinin önemini vurguluyor ve gelecekteki güvenlik sistemlerinin geliştirilmesine yön verebilecek bulgular sunuyor.