Büyük dil modellerinin güvenlik sistemlerinin beklenenden çok daha kırılgan olduğu ortaya çıktı. Yapılan araştırmalar, bu modellerdeki güvenlik hizalamasının sadece ilk birkaç çıktı tokenında yoğunlaştığını ve yalnızca 100 düşmanca örnek kullanılarak tersine çevrilebileceğini gösterdi.
Bu kırılganlık, modellerin gerçek dünya uygulamalarında daha da kritik hale geliyor. Yapay zeka sistemleri tıp, hukuk ve kodlama gibi farklı alanlara sırayla adapte edilirken, güvenlik koruma sistemleri kademeli olarak zayıflıyor. Mevcut güvenlik koruma yöntemleri ise yalnızca tek görevli ince ayar süreçleri için tasarlandığından, çoklu alan sıralı adaptasyonu tamamen çözümsüz kalıyor.
Bu sorunu çözmek için geliştirilen SafeAnchor sistemi, sürekli adaptasyon boyunca güvenliği sabit tutmak için yenilikçi bir yaklaşım benimsiyor. Sistem öncelikle Fisher Bilgi özdeğer ayrıştırması kullanarak LoRA parametre uzayında düşük rankli güvenlik alt uzaylarını tanımlıyor.
Ardından, alana özel gradyan güncellemelerini bu alt uzayların ortogonal tümleyenine sınırlayarak güvenlik bölgelerini koruyor. Son olarak, kalan güvenlik sapmalarını eşik tetiklemeli düzeltici tekrar oynatma ile izliyor ve müdahale ediyor.
Bu yaklaşım, yapay zeka güvenliğinde önemli bir boşluğu dolduruyor ve gerçek dünya uygulamalarında daha güvenilir AI sistemleri geliştirilmesine katkı sağlıyor.