Yapay Zeka Modellerinde Yeni Güvenlik Açığı: Tek Kullanıcıyla 'Hipnoz' Saldırısı

Araştırmacılar, kullanıcı geri bildirimlerini öğrenen yapay zeka modellerinde kritik bir güvenlik açığı keşfetti. 'LLM Hipnozu' adı verilen bu yöntemde, kötü niyetli bir kullanıcı sadece sorular sorarak ve yanıtları oylarıyla değerlendirerek, modelin tüm kullanıcılara vereceği yanıtları kalıcı olarak değiştirebiliyor. Saldırgan, modelden bazen zararlı bazen normal yanıtlar üretmesini sağlayıp, zararlı olanları onaylarken normal olanları reddediyor. Bu süreç, modelin tercih öğrenme sistemini manipüle ederek yanlış bilgi enjeksiyonu, güvenlik açıklı kod üretimi ve sahte finansal haberler yayma gibi ciddi sonuçlara yol açabiliyor.

Stanford ve diğer üniversitelerden araştırmacılar, kullanıcı geri bildirimlerini öğrenen büyük dil modellerinde (LLM) yeni bir güvenlik açığı tespit etti. 'LLM Hipnozu' olarak adlandırılan bu saldırı yöntemi, tek bir kötü niyetli kullanıcının tüm sistem kullanıcılarını etkileyecek şekilde modelin davranışını kalıcı olarak değiştirebileceğini gösteriyor.

Saldırı mekanizması oldukça sofistike: Kötü niyetli kullanıcı, modelden rastgele bir şekilde bazen 'zehirlenmiş' bazen de normal yanıtlar üretmesini sağlayan özel sorular hazırlıyor. Ardından zararlı içerikleri onaylayıp normal yanıtları reddederek, modelin tercih öğrenme sistemini manipüle ediyor. Bu süreç sonucunda model, zararlı içerikleri daha sık üretmeye başlıyor.

Araştırmacılar bu yöntemle üç farklı saldırı senaryosu gerçekleştirmeyi başardı: Modelin daha önce bilmediği yanlış bilgileri öğretmek, kod üretiminde güvenlik açıkları yaratacak kalıplar enjekte etmek ve sahte finansal haberler yaymak. Bu bulgular, yapay zeka modellerinin tercih öğrenme mekanizmalarının beklenenden daha hassas olduğunu ortaya koyuyor.

Çalışma, modern yapay zeka sistemlerinin güvenlik protokollerinin yeniden değerlendirilmesi gerektiğini vurguluyor ve özellikle kullanıcı geri bildirimlerine dayanan sistemlerde daha sıkı denetim mekanizmalarının geliştirilmesi gerektiğini işaret ediyor.