Stanford ve diğer üniversitelerden araştırmacılar, kullanıcı geri bildirimlerini öğrenen büyük dil modellerinde (LLM) yeni bir güvenlik açığı tespit etti. 'LLM Hipnozu' olarak adlandırılan bu saldırı yöntemi, tek bir kötü niyetli kullanıcının tüm sistem kullanıcılarını etkileyecek şekilde modelin davranışını kalıcı olarak değiştirebileceğini gösteriyor.
Saldırı mekanizması oldukça sofistike: Kötü niyetli kullanıcı, modelden rastgele bir şekilde bazen 'zehirlenmiş' bazen de normal yanıtlar üretmesini sağlayan özel sorular hazırlıyor. Ardından zararlı içerikleri onaylayıp normal yanıtları reddederek, modelin tercih öğrenme sistemini manipüle ediyor. Bu süreç sonucunda model, zararlı içerikleri daha sık üretmeye başlıyor.
Araştırmacılar bu yöntemle üç farklı saldırı senaryosu gerçekleştirmeyi başardı: Modelin daha önce bilmediği yanlış bilgileri öğretmek, kod üretiminde güvenlik açıkları yaratacak kalıplar enjekte etmek ve sahte finansal haberler yaymak. Bu bulgular, yapay zeka modellerinin tercih öğrenme mekanizmalarının beklenenden daha hassas olduğunu ortaya koyuyor.
Çalışma, modern yapay zeka sistemlerinin güvenlik protokollerinin yeniden değerlendirilmesi gerektiğini vurguluyor ve özellikle kullanıcı geri bildirimlerine dayanan sistemlerde daha sıkı denetim mekanizmalarının geliştirilmesi gerektiğini işaret ediyor.