Yapay Zeka Güvenlik Duvarları Bağlama Göre Değişiyor

Yeni bir araştırma, büyük dil modellerinin güvenlik sistemlerinde kritik bir açık keşfetti. Modeller, kimya gibi belirli alanlarda veya güvenlik araştırması bağlamında sorulduğunda zararlı bilgileri daha kolay paylaşıyor. Stanford araştırmacıları geliştirdiği 'Jargon' yöntemiyle GPT, Claude ve Gemini gibi en gelişmiş modellerde %93 başarı oranıyla bu güvenlik önlemlerini aşmayı başardı. Çalışma, AI güvenliğinde fayda ve zararsızlık arasındaki dengenin ne kadar hassas olduğunu ortaya koyuyor.

Yapay zeka güvenliği alanında çarpıcı bir keşif yapan araştırmacılar, büyük dil modellerinin güvenlik sistemlerinin bağlama göre değişken davranış sergilediğini ortaya çıkardı. Bu durum, AI modellerinin zararlı içerik üretmesini engelleyen koruma mekanizmalarında önemli açıklar yaratıyor.

Araştırma ekibi, modellerin belirli alan bağlamlarında -örneğin kimya gibi bilimsel alanlarda- normalde yasakladığı zararlı bilgileri paylaşmaya daha yatkın olduğunu keşfetti. Daha da ilginci, güvenlik araştırması bağlamında sorulan sorular, modellerin tüm zarar kategorilerinde savunma mekanizmalarını gevşetmesine neden oluyor.

Bu zayıflığı sistematik olarak test etmek için geliştirilen 'Jargon' adlı yöntem, güvenlik araştırması bağlamını çok aşamalı saldırı teknikleriyle birleştiriyor. Yöntem, GPT-5.2, Claude-4.5 ve Gemini-3 dahil yedi farklı model üzerinde %93'ü aşan başarı oranı elde etti.

Aktivasyon uzayı analizleri, bu tür sorguların zararsız ve zararlı girdiler arasında bir 'gri bölge' oluşturduğunu gösteriyor. Bu bölgede modellerin reddetme kararları belirsizleşiyor ve güvenlik duvarları zayıflıyor. Bulgular, AI güvenliği sistemlerinin daha sofistike savunma mekanizmaları geliştirmesi gerektiğini ortaya koyuyor.