Yapay zeka modelleri yeni alanlarda eğitilirken karşılaşılan güvenlik sorunlarına yönelik yenilikçi bir çözüm geliştirildi. Araştırmacılar, büyük dil modellerinin ince ayar sürecinde güvenlik özelliklerini koruyan 'güvenlik token düzenlemesi' tekniğini tanıttı.

Büyük dil modellerinin yeni veri setleriyle eğitilmesi, zararsız veriler kullanılsa bile güvenlik hizalamasını bozabilir. Bu durum, modellerin istenmeyen davranışlar sergilemesine yol açabilir. Mevcut güvenlik hizalama teknikleri genellikle ön eğitim aşamasına odaklanır ve ince ayar yapılan modelleri davranış değişikliklerine karşı savunmasız bırakır.

Yeni geliştirilen yöntem, hizalanmış modellerin reddetme şablonlarından önemli tokenları belirleyerek çalışıyor. Eğitim sırasında bu tokenlara bağlı logitleri sınırlandırarak kritik güvenlik davranışlarının kaybolmasını önlüyor. Bu yaklaşım, güçlendirmeli öğrenme veya tercih optimizasyonu yöntemlerinden farklı olarak minimal ek hesaplama gerektiriyor.

Teknik, LoRA gibi parametre-verimli ince ayar yöntemleriyle sorunsuz entegre olabiliyor. Kapsamlı deneyler, bu yaklaşımın mevcut en gelişmiş yöntemlerle eşdeğer güvenlik performansı sağladığını ve aynı zamanda göreve özel yetenekleri koruduğunu gösteriyor.