Yapay zeka modellerinin güvenlik değerlendirmeleri konusunda çarpıcı bulgular ortaya çıktı. Araştırmacılar, mevcut test yöntemlerinin kritik bir boşluğu göz ardı ettiğini keşfetti: zararlı içerik tespiti ile davranışsal tepki arasındaki yönlendirme katmanı.
Çin menşeli dil modellerinde siyasi sansür mekanizmalarını doğal bir deney ortamı olarak kullanan bilim insanları, beş laboratuvardan dokuz açık kaynak model üzerinde kapsamlı testler gerçekleştirdi. Prob analizi, cerrahi ablasyon ve davranışsal testleri bir arada kullandılar.
İlk önemli bulgu, prob doğruluğunun tek başına yanıltıcı olabileceği yönündeydi. Siyasi prob'lar, boş kontroller ve permütasyon temelleri %100 doğruluğa ulaşabildiği için, gerçek test kategoriler arası genelleme yeteneğinde saklıydı.
Cerrahi ablasyon deneyleri laboratuvar-özel yönlendirme mekanizmalarını açığa çıkardı. Siyasi hassasiyet yönünün kaldırılması, test edilen modellerin çoğunda sansürü ortadan kaldırıp doğru bilgi üretimini geri getirdi. Ancak dikkat çekici bir istisna vardı: bir modelin mimarisi gerçek bilgiyi sansür mekanizmasıyla o kadar iç içe geçirmişti ki, müdahale sonrası model gerçek dışı bilgiler üretti.
Bu bulgular, AI güvenlik değerlendirmelerinin sadece zararlı kavram kodlaması ve red mekanizmalarına odaklanmasının yetersiz olduğunu gösteriyor. Asıl mesele, tespit edilen bilgilerin davranışa nasıl dönüştürüldüğünde yatıyor.