Büyük dil modellerinin (LLM) yaygınlaşmasıyla birlikte, bu sistemlerdeki veri güvenliği kritik bir konu haline geldi. Yeni bir araştırma, mevcut güvenlik yaklaşımlarının büyük bir açık içerdiğini ortaya koyuyor.
Araştırmacılar, şu anda yaygın olarak kullanılan diferansiyel gizlilik gibi 'ayırt edilemezlik' temelli koruma yöntemlerinin, veri çıkarma saldırılarına karşı yetersiz olduğunu kanıtladı. Bu yöntemler, bir modelin belirli verileri öğrenip öğrenmediğini tespit etmeyi zorlaştırsa da, saldırganların eğitim verilerindeki hassas bilgileri doğrudan çıkarmasını engellemede başarısız kalabiliyor.
Çalışmada, 'ayırt edilemezlik' ve 'çıkarılamazlık' kavramlarının birbirinden bağımsız olduğu matematiksel olarak ispatlandı. Bu, bir modelin ayırt edilemez olmasının, veri çıkarma saldırılarına karşı güvenli olduğu anlamına gelmediğini gösteriyor.
Araştırma ekibi, bu soruna çözüm olarak '(l, b)-çıkarılamazlık' adında yeni bir güvenlik tanımı geliştirdi. Bu yaklaşım, bir saldırganın belirli uzunluktaki hassas veri parçalarını elde etmesi için gereken minimum sorgu sayısını hesaplıyor. Böylece API sağlayıcıları, sistemlerindeki gerçek risk seviyesini daha doğru değerlendirebilecek.