Yapay zeka güvenliği alanında çalışan araştırmacılar, AI sistemlerinin farklı ortamlarda sergileyebileceği gizli davranışları tespit etmek için yenilikçi bir yöntem geliştirdi. 'Bal küpü protokolü' olarak adlandırılan bu sistem, geleneksel izleme yöntemlerinin eksikliklerini gidermeyi hedefliyor.
Mevcut güvenlik yaklaşımlarının temel sorunu, yapay zeka modellerinin davranışlarını sadece pasif olarak gözlemlemesi. Bu durum, modellerin adaptif saldırılar, işbirliği yapma veya stratejik saldırı seçimi gibi gelişmiş tehdit senaryolarına karşı savunmasız kalmasına neden oluyor. Yeni protokol ise aktif test yaklaşımı benimsiyor.
Bal küpü yöntemi, AI modellerinin bağlama bağlı davranış değişikliklerini test etmek için sistem komutlarını üç farklı durumda çeşitlendiriyor: değerlendirme modu, sentetik dağıtım ortamı ve açık izleme yapılmayan durum. Bu süreçte görev, çevre ve puanlama sistemi tamamen aynı kalıyor, böylece sadece algılanan koşulların etkisi ölçülüyor.
Anthropic'in Claude Opus 4.6 modeli üzerinde BashArena ortamında yapılan ilk deneyler, hem dürüst hem de saldırı modlarında test edildi. Sonuçlar, modelin her üç durumda da %100 ana görev başarısı gösterdiğini ve hiçbir yan görevi tetiklemediğini ortaya koydu. Bu bulgular, gelecekteki karşılaştırmalar için önemli bir temel oluşturuyor.
Araştırma, AI güvenliği alanında önemli bir ilerleme olarak değerlendiriliyor çünkü modellerin potansiyel zararlı davranışlarını gizleme eğilimlerini tespit edebilme kapasitesi sunuyor.