Stanford Üniversitesi araştırmacıları, yapay zeka güvenlik sistemlerini atlatmak için şaşırtıcı derecede basit ama etkili bir yöntem keşfetti. 'Incremental Completion Decomposition' (ICD) adı verilen bu teknik, büyük dil modellerinin güvenlik engellerini tek kelime tek kelime aşarak zararlı içerik üretmesini sağlıyor.

Yöntemin çalışma prensibi oldukça sinsi: Araştırmacılar, AI modelini doğrudan zararlı bir soru sormak yerine, önce bu soruyla ilgili tek kelimeleri tamamlaması için yönlendiriyor. Model her seferinde sadece bir kelime ürettiği için güvenlik sistemleri devreye girmiyor. Ardından bu kelimeleri birleştirerek modelden tam bir zararlı yanıt alınabiliyor.

Araştırma ekibi, bu tekniği AdvBench, JailbreakBench ve StrongREJECT gibi güvenlik test platformlarında denedi. Sonuçlar, ICD yönteminin mevcut saldırı tekniklerinden çok daha başarılı olduğunu gösterdi. Farklı AI model ailelerinde yapılan testlerde, saldırı başarı oranı önemli ölçüde arttı.

Araştırmacılar, bu yöntemin neden bu kadar etkili olduğunun teorik açıklamasını da sunuyor. Bulgularına göre, başarılı saldırı rotaları sistematik olarak modelin reddetme mekanizmalarını baskılıyor. Bu durum, AI güvenlik sistemlerinin bütünlüklü sohbet bağlamında çalıştığını ama parçalı yaklaşımlarda zayıf kaldığını gösteriyor.

Bu keşif, AI güvenliği alanında önemli bir uyarı niteliğinde. Geliştiricilerin, daha sofistike ve çok katmanlı güvenlik mekanizmaları geliştirmesi gerektiğini ortaya koyuyor.