Yapay zeka alanında çalışan araştırmacılar, büyük dil modellerinde beklenmedik bir güvenlik sorunu tespit etti. 'Gizlilik çöküşü' olarak adlandırılan bu fenomen, modellere zararsız görünen ek eğitimler verildiğinde ortaya çıkıyor.
Araştırma ekibi, çok çeşitli eğitim verilerinin modellerin gizlilik anlayışını bozabildiğini keşfetti. Yardımcı olma odaklı optimizasyon, kullanıcı bilgilerine maruz kalma, duygusal diyaloglar ve hatta hata ayıklama kodları gibi sıradan unsurlar bile bu soruna yol açabiliyor.
Gizlilik çöküşü yaşayan modeller, bağlamsal gizlilik kurallarını anlayamaz hale geliyor. Bu durum, modellerin uygunsuz bilgi paylaşımına ve farklı bağlamlar arasında hafıza sınırlarını ihlal etmesine neden oluyor.
En endişe verici nokta, bu sorunun 'sessiz bir başarısızlık' olması. Etkilenen modeller standart güvenlik ve performans testlerinde yüksek başarı gösterirken, aynı zamanda ciddi gizlilik açıklarına sahip oluyor.
Altı farklı model, beş farklı eğitim veri seti ve iki görev kategorisinde yapılan kapsamlı testler, sorunun ne kadar yaygın olduğunu ortaya koydu. Bu bulgular, AI güvenliği alanında yeni önlemlerin alınması gerektiğini gösteriyor.