Yapay zeka modellerinin gerçek dünya uygulamalarında yaygın kullanımı arttıkça, güvenlik endişeleri de beraberinde geliyor. Mistral ve LLaVA gibi 'hizalanmış' olarak kabul edilen modeller bile, eğitim sürecinden kalma zararlı davranışlar sergileyebiliyor.
Araştırmacılar, bu sorunu kökten çözmek için yeni bir yaklaşım geliştirdi. Mevcut güvenlik yöntemleri olan SFT (Supervised Fine-Tuning) ve RLHF (Reinforcement Learning from Human Feedback) sadece modelleri istenen yanıtları üretmeye teşvik ediyor. Ancak zararlı çıktılara neden olan alt ağ yapılarını doğrudan ortadan kaldırmıyor.
Yeni geliştirilen 'budama' çerçevesi, zararlı davranışlarla ilişkili parametreleri doğrudan tespit ediyor ve bunları model performansını koruyarak siliyor. Sistem, gradyant-free bir atıf mekanizması kullanarak çalışıyor ve mütevazı GPU kaynakları gerektiriyor.
Bu yaklaşımın en önemli avantajlarından biri farklı mimarilerde ve kuantizeli varyantlarda genelleştirilebilir olması. Deneysel değerlendirmeler, zararlı üretimlerde önemli azalma ve jailbreak saldırılarına karşı geliştirilmiş direnç gösteriyor.
Lottery Ticket Hypothesis perspektifinden bakıldığında, bu çalışma AI güvenliği alanında önemli bir adım teşkil ediyor ve model güvenliğini artırmak için kaynak-verimli bir çözüm sunuyor.