"AI ethics" araması — BilimKapsül

...

Arama Sonuçları

2 haber

Teknoloji & Yapay Zeka

TRIDENT: AI güvenliği için üç boyutlu 'kırmızı takım' saldırı simülasyonu

Büyük dil modelleri günlük hayatımızda giderek daha fazla yer alırken, güvenlik açıkları da kritik bir sorun haline geliyor. Araştırmacılar, AI sistemlerinin zararlı içerik üretme risklerini azaltmak için TRIDENT adlı yeni bir yaklaşım geliştirdi. Bu sistem, üç temel boyutta - kelime çeşitliliği, kötü niyetli amaçlar ve güvenlik duvarı aşma taktikleri - AI modellerine karşı simülasyon saldırılar düzenleyerek zayıflıkları tespit ediyor. Mevcut güvenlik veri setlerinin çoğunlukla yalnızca sözcük çeşitliliğine odaklandığını belirten araştırma, daha kapsamlı risk analizi ihtiyacını vurguluyor. TRIDENT, persona tabanlı otomatik üretim teknikleriyle çeşitli zararlı talimatlar oluşturup bunlara etik açıdan uygun yanıtlar eşleştiriyor. Bu yaklaşım, AI güvenlik sistemlerinin daha dayanıklı hale gelmesine katkı sağlayabilir.

arXiv (CS + AI) · 24 gün önce