Yapay zeka güvenliği alanında çarpıcı bir keşif yapan araştırmacılar, büyük dil modellerinin güvenlik sistemlerinin bağlama göre değişken davranış sergilediğini ortaya çıkardı. Bu durum, AI modellerinin zararlı içerik üretmesini engelleyen koruma mekanizmalarında önemli açıklar yaratıyor.
Araştırma ekibi, modellerin belirli alan bağlamlarında -örneğin kimya gibi bilimsel alanlarda- normalde yasakladığı zararlı bilgileri paylaşmaya daha yatkın olduğunu keşfetti. Daha da ilginci, güvenlik araştırması bağlamında sorulan sorular, modellerin tüm zarar kategorilerinde savunma mekanizmalarını gevşetmesine neden oluyor.
Bu zayıflığı sistematik olarak test etmek için geliştirilen 'Jargon' adlı yöntem, güvenlik araştırması bağlamını çok aşamalı saldırı teknikleriyle birleştiriyor. Yöntem, GPT-5.2, Claude-4.5 ve Gemini-3 dahil yedi farklı model üzerinde %93'ü aşan başarı oranı elde etti.
Aktivasyon uzayı analizleri, bu tür sorguların zararsız ve zararlı girdiler arasında bir 'gri bölge' oluşturduğunu gösteriyor. Bu bölgede modellerin reddetme kararları belirsizleşiyor ve güvenlik duvarları zayıflıyor. Bulgular, AI güvenliği sistemlerinin daha sofistike savunma mekanizmaları geliştirmesi gerektiğini ortaya koyuyor.