Yapay Zeka Güvenlik Sisteminin Sırrı: Sadece 50 Nöron Kontrolü Sağlıyor

Araştırmacılar, büyük dil modellerinin güvenlik mekanizmalarını kontrol eden nöron ağlarını keşfetti. Milyonlarca nöron içeren sistemlerde, zararlı içerik üretimini engelleyen güvenlik mekanizmasının sadece 50 nöron tarafından yönetildiği ortaya çıktı. Bu nöronlar tüm sistemin yalnızca %0.014'ünü oluştururken, yanıt formatlarının %80'ini kontrol ediyor. Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini iki geçişle analiz ediyor. Çalışma, RLHF eğitimi sonrası ortaya çıkan 'karşıtlık devreleri' ve dil seçimi gibi önceden öğrenilmiş davranışları yöneten 'yönlendirme devreleri' olmak üzere iki temel devre yapısı tanımlıyor.

Stanford Üniversitesi araştırmacıları, yapay zeka güvenlik sistemlerinin şaşırtıcı derecede az sayıda nöron tarafından kontrol edildiğini keşfetti. Milyonlarca nörona sahip büyük dil modellerinde, zararlı içerik üretimini engelleyen güvenlik mekanizması sadece yaklaşık 50 nöron tarafından yönetiliyor.

Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini sadece iki ileri geçişle analiz edebiliyor. Bu teknik, geri yayılım gerektirmeden görev-spesifik nedensel hipotezler üretiyor ve yaklaşık 150 geçişle tüm tanımlanan nöronları tarayabiliyor.

Araştırma, 13 farklı model ve dört mimari ailesi üzerinde yapılan testlerde iki temel devre yapısı ortaya çıkardı. İlki, RLHF (İnsan Geri Bildirimli Pekiştirmeli Öğrenme) eğitiminin önceden öğrenilmiş eğilimleri bastırdığı durumlarda ortaya çıkan 'karşıtlık devreleri'. Güvenlik reddi sisteminde bu 50 nöron, tüm nöronların sadece %0.014'ünü oluştururken, 520 AdvBench prompt'unda yanıt formatlarının %80'ini kontrol ediyor.

İkinci yapı olan 'yönlendirme devreleri' ise dikkat mekanizması aracılığıyla dağıtılan önceden öğrenilmiş davranışlarda görülüyor. Dil seçimi için yapılan testlerde, residual-stream yön enjeksiyonu ile İngilizce çıktılar %99.1 oranında Çinceye dönüştürülebildi.

Bu bulgular, yapay zeka güvenlik sistemlerinin beklenenden çok daha kırılgan olabileceğini ve kritik davranışların çok az sayıda nöron tarafından kontrol edildiğini gösteriyor.