Yapay zeka alanında yeni bir güvenlik tehdidi keşfedildi. Araştırmacılar, büyük mantık yürütme modellerinin (LRM) düşünce zincirlerine zararlı içerik enjekte edebilen sofistike saldırı yöntemleri geliştirdi.
Bu modeller, adım adım mantık yürüterek sonuçlara ulaşma yetenekleri sayesinde sağlık, eğitim gibi kritik sektörlerde yaygın kullanım alanı buluyor. Ancak yeni keşfedilen güvenlik açığı, bu sistemlerin düşünme süreçlerinin manipüle edilebileceğini gösteriyor.
Saldırının en tehlikeli yanı, modelin nihai cevabını değiştirmeden, ara düşünce adımlarına zararlı bilgiler yerleştirebilmesi. Bu durum iki temel zorluğu beraberinde getiriyor: girdi talimatlarını değiştirmenin modelin son cevabını etkileme riski ve farklı soru türlerinde tutarlı şekilde güvenlik mekanizmalarını aşmanın zorluğu.
Araştırmacılar bu sorunlara çözüm olarak 'Psikoloji Tabanlı Mantık Yürütme Hedefli Jailbreak Saldırısı' (PRJA) çerçevesini geliştirdi. Bu yöntem, psikolojik çerçeveleme teknikleri kullanarak modellerin güvenlik önlemlerini atlatıyor.
Bu keşif, AI güvenliğinde yeni bir paradigma değişikliğine işaret ediyor. Artık sadece son yanıtların değil, tüm düşünme sürecinin güvenliğinin de gözetilmesi gerekiyor.