Yapay Zeka Modellerindeki Zararlı Davranışları Kökten Silmek Artık Mümkün

Araştırmacılar, yapay zeka modellerindeki zararlı ve güvenli olmayan davranışları doğrudan kaynaklarından silmek için yeni bir yöntem geliştirdi. Mistral ve LLaVA gibi hizalanmış modeller bile eğitim sürecinden kalma istenmeyen davranışlar sergileyebiliyor. Mevcut güvenlik yöntemleri sadece tercih edilen yanıtları teşvik ediyor ancak zararlı çıktılara neden olan alt ağları doğrudan kaldırmıyor. Yeni geliştirilen 'budama' çerçevesi, gradyant-free bir atıf mekanizması kullanarak bu tehlikeli parametreleri tespit ediyor ve kaldırıyor. Sistem, GPU kaynaklarını verimli kullanırken farklı mimarilerde genelleştirilebiliyor. Deneysel sonuçlar, zararlı üretimlerde önemli azalma ve jailbreak saldırılarına karşı daha iyi direnç gösterirken model performansında minimal kayıp olduğunu ortaya koyuyor.

Yapay zeka modellerinin gerçek dünya uygulamalarında yaygın kullanımı arttıkça, güvenlik endişeleri de beraberinde geliyor. Mistral ve LLaVA gibi 'hizalanmış' olarak kabul edilen modeller bile, eğitim sürecinden kalma zararlı davranışlar sergileyebiliyor.

Araştırmacılar, bu sorunu kökten çözmek için yeni bir yaklaşım geliştirdi. Mevcut güvenlik yöntemleri olan SFT (Supervised Fine-Tuning) ve RLHF (Reinforcement Learning from Human Feedback) sadece modelleri istenen yanıtları üretmeye teşvik ediyor. Ancak zararlı çıktılara neden olan alt ağ yapılarını doğrudan ortadan kaldırmıyor.

Yeni geliştirilen 'budama' çerçevesi, zararlı davranışlarla ilişkili parametreleri doğrudan tespit ediyor ve bunları model performansını koruyarak siliyor. Sistem, gradyant-free bir atıf mekanizması kullanarak çalışıyor ve mütevazı GPU kaynakları gerektiriyor.

Bu yaklaşımın en önemli avantajlarından biri farklı mimarilerde ve kuantizeli varyantlarda genelleştirilebilir olması. Deneysel değerlendirmeler, zararlı üretimlerde önemli azalma ve jailbreak saldırılarına karşı geliştirilmiş direnç gösteriyor.

Lottery Ticket Hypothesis perspektifinden bakıldığında, bu çalışma AI güvenliği alanında önemli bir adım teşkil ediyor ve model güvenliğini artırmak için kaynak-verimli bir çözüm sunuyor.