Yapay zeka güvenliği alanında önemli bir keşif yapıldı. Araştırmacılar, büyük dil modellerinin zararlı içerikleri nasıl reddettiğini kontrol eden dahili mekanizmaları haritalandırmayı başardı.
Çalışmaya göre, modeller içinde 'kapı' ve 'yükselteç' olarak adlandırılan iki ana bileşen bulunuyor. Orta katmanlardaki dikkat başlıkları bir kapı görevi görerek problematik içerikleri tespit ediyor. Ardından daha derin katmanlardaki yükselteç başlıklar devreye girerek reddetme sinyalini güçlendiriyor.
Araştırma ekibi, 6 farklı yapay zeka laboratuvarından 2 milyar ile 72 milyar parametre arasında değişen 12 modeli inceledi. Tüm modellerde aynı temel mekanizmanın varlığını tespit ettiler, ancak spesifik dikkat başlıklarının laboratuvara göre farklılık gösterdiğini gözlemlediler.
En çarpıcı bulgu, bu mekanizmanın manipüle edilebilir olması. Tespit katmanındaki sinyali ayarlayarak, araştırmacılar model davranışını sürekli bir spektrumda kontrol edebildiler - sert reddedici tavrından kaçamak cevaplara, hatta zararlı rehberlik sağlamaya kadar.
Bu keşif, AI güvenliği ve model davranışlarının denetimi açısından kritik önem taşıyor. Büyük ölçekli modellerde geleneksel ablasyon testlerinin yetersiz kaldığını, interchange testinin daha güvenilir bir denetim yöntemi olduğunu da ortaya koyuyor.