Stanford Üniversitesi araştırmacıları, yapay zeka güvenlik sistemlerinin şaşırtıcı derecede az sayıda nöron tarafından kontrol edildiğini keşfetti. Milyonlarca nörona sahip büyük dil modellerinde, zararlı içerik üretimini engelleyen güvenlik mekanizması sadece yaklaşık 50 nöron tarafından yönetiliyor.
Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini sadece iki ileri geçişle analiz edebiliyor. Bu teknik, geri yayılım gerektirmeden görev-spesifik nedensel hipotezler üretiyor ve yaklaşık 150 geçişle tüm tanımlanan nöronları tarayabiliyor.
Araştırma, 13 farklı model ve dört mimari ailesi üzerinde yapılan testlerde iki temel devre yapısı ortaya çıkardı. İlki, RLHF (İnsan Geri Bildirimli Pekiştirmeli Öğrenme) eğitiminin önceden öğrenilmiş eğilimleri bastırdığı durumlarda ortaya çıkan 'karşıtlık devreleri'. Güvenlik reddi sisteminde bu 50 nöron, tüm nöronların sadece %0.014'ünü oluştururken, 520 AdvBench prompt'unda yanıt formatlarının %80'ini kontrol ediyor.
İkinci yapı olan 'yönlendirme devreleri' ise dikkat mekanizması aracılığıyla dağıtılan önceden öğrenilmiş davranışlarda görülüyor. Dil seçimi için yapılan testlerde, residual-stream yön enjeksiyonu ile İngilizce çıktılar %99.1 oranında Çinceye dönüştürülebildi.
Bu bulgular, yapay zeka güvenlik sistemlerinin beklenenden çok daha kırılgan olabileceğini ve kritik davranışların çok az sayıda nöron tarafından kontrol edildiğini gösteriyor.