"kullanıcı içeriği" araması — BilimKapsül

...

Arama Sonuçları

230 haber

Teknoloji & Yapay Zeka

Büyük Dil Modelleri Zararlı İçeriği Tek ve Birleşik Bir Mekanizma ile Üretiyor

Araştırmacılar, büyük dil modellerinin zararlı davranışları engellemek için aldıkları güvenlik önlemlerinin neden bu kadar kırılgan olduğunu keşfetti. Jailbreak saldırılarının ve dar alanlardaki fine-tuning işlemlerinin güvenlik duvarlarını nasıl aştığını açıklayan birleşik bir mekanizma tespit edildi.

arXiv · 35 gün önce

← 1 … 18 19 20 →