Teknoloji & Yapay Zeka
Büyük Dil Modelleri Zararlı İçeriği Tek ve Birleşik Bir Mekanizma ile Üretiyor
Araştırmacılar, büyük dil modellerinin zararlı davranışları engellemek için aldıkları güvenlik önlemlerinin neden bu kadar kırılgan olduğunu keşfetti. Jailbreak saldırılarının ve dar alanlardaki fine-tuning işlemlerinin güvenlik duvarlarını nasıl aştığını açıklayan birleşik bir mekanizma tespit edildi.