Yapay zeka güvenliği alanında çalışan araştırmacılar, büyük dil modellerinde (LLM) yeni bir güvenlik açığı türü keşfetti. 'Reasoning Hijacking' yani 'Akıl Yürütme Korsanlığı' olarak adlandırılan bu saldırı yöntemi, geleneksel güvenlik yaklaşımlarından farklı bir strateji benimsiyor.
Mevcut yapay zeka güvenlik araştırmaları ağırlıklı olarak 'Hedef Korsanlığı'na odaklanıyor. Bu saldırı türünde, saldırganlar modelin ana amacını tamamen değiştirmeye çalışır - örneğin 'e-postaları özetleme' görevini 'kullanıcıları kandırma' görevine dönüştürmek gibi. Ancak yeni keşfedilen yöntem çok daha sinsi bir yaklaşım sergiliyor.
Araştırmacıların geliştirdiği 'Kriterlər Saldırısı', modelin ana görevini olduğu gibi bırakarak sadece karar verme mantığını manipüle ediyor. Bu yöntemde, yapay zekaya yanıltıcı karar kriterleri enjekte edilerek yanlış sonuçlara ulaşması sağlanıyor. Sistem, görünürde doğru görevi yerine getirirken aslında manipüle edilmiş mantık yürütme süreçleri kullanıyor.
Toksik yorumların tespiti gibi farklı görevlerde yapılan kapsamlı deneyler, bu saldırı türünün etkinliğini kanıtladı. Bulgular, mevcut güvenlik önlemlerinin bu tür manipülasyonlara karşı yetersiz kaldığını gösteriyor ve yapay zeka sistemlerinde daha kapsamlı güvenlik stratejilerine ihtiyaç olduğunu ortaya koyuyor.