Yapay Zeka Güvenlik Araştırması: Risk Nasıl Değişiyor?

30 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (Dilbilim & NLP)

Paylaş: Kopyalandı!

Büyük dil modellerinin güvenlik değerlendirmeleri genellikle sadece saldırı başarı oranı veya zararlı içerik sınıflandırması gibi ikili sonuçlar sunuyor. Ancak yeni bir araştırma, kullanıcının girdisi ile modelin yanıtı arasında riskin nasıl değiştiğini inceliyor. 1250 soru-cevap çiftinin analiz edildiği çalışmada, nefret, cinsellik, şiddet ve kendine zarar verme kategorileri üzerinden değerlendirme yapıldı. Bulgular, yanıtların büyük çoğunluğunun (%61) zararlılık seviyesini düşürdüğünü, %36'sının aynı seviyede kaldığını ve sadece %3'ünün daha zararlı hale geldiğini gösteriyor. Özellikle cinsel içeriğin, nefret ve şiddet içeriğine kıyasla zararsızlaştırılmasının 3 kat daha zor olduğu tespit edildi.

Yapay zeka sistemlerinin güvenliğini değerlendirmek için yeni bir yaklaşım geliştirildi. Geleneksel güvenlik analizlerinin aksine, bu çalışma kullanıcının sorusu ile yapay zekanın cevabı arasındaki risk değişimini eşleştirerek inceliyor.

Araştırmacılar, Azure AI İçerik Güvenliği taksonomisine uygun olarak tasarlanmış 1250 soru-cevap çiftini analiz etti. Nefret söylemi, cinsel içerik, şiddet ve kendine zarar verme olmak üzere dört ana kategori ile farklı şiddet seviyeleri değerlendirildi.

Sonuçlar oldukça cesaret verici: Yapay zeka yanıtlarının %61'i girdiye göre zararlılığı azaltırken, %36'sı aynı seviyeyi korudu ve sadece %3'ü daha zararlı hale geldi. Bu durum, mevcut güvenlik sistemlerinin genel olarak etkili çalıştığını gösteriyor.

Ancak kategori bazında farklılıklar dikkat çekici. Cinsel içeriğin zararsızlaştırılması, nefret söylemi veya şiddete göre üç kat daha zor görünüyor. Bu zorluk özellikle halihazırda cinsel içerik barındıran sorularda kendini gösteriyor.

Araştırma, yapay zeka güvenliği alanında daha detaylı risk analizlerinin önemini vurguluyor ve gelecekteki güvenlik sistemlerinin geliştirilmesine yön verebilecek bulgular sunuyor.

Yapay Zeka Güvenlik Araştırması: Risk Nasıl Değişiyor?

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Konum paylaşım uygulamaları iletişimimizi nasıl değiştiriyor?

Yeni Ge-Si Fotodetektör ile Veri Merkezlerinde Işık Hızında İletişim

Sosyal medya algoritmaları değişse kutuplaşma azalabilir