Yapay zeka alanında büyük dil modelleri (LLM'ler) doğal dil işleme teknolojilerinde devrim yaratırken, güvenlik açısından da ciddi riskler barındırıyor. Bu modellerin geniş çaplı veri setlerine dayanması, onları backdoor saldırıları olarak bilinen siber tehditlere karşı savunmasız hale getiriyor.
Backdoor saldırılarında, kötü niyetli aktörler eğitim verilerinin sadece küçük bir bölümünü manipüle ederek modele gizli davranış kalıpları yerleştiriyor. Bu durum, özellikle insan kaynaklı veya web tabanlı büyük veri setleri kullanan instruction-tuned modeller için büyük bir tehdit oluşturuyor.
Araştırmacılar bu soruna çözüm olarak MB-Defense (Merging & Breaking Defense Framework) adlı yenilikçi bir savunma sistemi geliştirdi. Bu iki aşamalı sistem oldukça akıllıca bir yaklaşım benimsiyor.
İlk aşamada 'Savunma Amaçlı Zehirleme' tekniği kullanılıyor. Bu süreçte, saldırganın tetikleyicileri ile savunma tetikleyicileri birleştirilerek ortak bir backdoor temsili oluşturuluyor. İkinci aşamada ise 'Backdoor Nötrleştirme' devreye giriyor ve ek eğitim yoluyla bu gizli temsil bozularak modelin normal davranışı geri kazandırılıyor.
Bu yaklaşım, yapay zeka güvenliği alanında önemli bir adım olarak değerlendiriliyor ve büyük dil modellerinin çeşitli backdoor tehditlerine karşı bağışıklık kazanmasını sağlıyor.