Yapay zeka araştırmacıları, büyük dil modellerinde yönlendirme vektörlerinin başarısını önceden tahmin edebilen yenilikçi bir yöntem geliştirdi. Linear Accessibility Profile (LAP) adı verilen bu teknik, AI güvenliği ve model kontrol alanında önemli bir gelişme olarak öne çıkıyor.
Yönlendirme vektörleri, AI modellerinin belirli konulardaki davranışlarını değiştirmek için kullanılan teknikler. Ancak bu vektörler bazı kavramlar ve katmanlar için işe yararken, diğerleri için başarısız olabiliyor. Şimdiye kadar uygulayıcılar, hangi ayarların etkili olacağını müdahale yapmadan önce tahmin edemiyordu.
Yeni yöntem, modelin 'unembedding matrix'ini ara gizli durumlara uygulayarak çalışıyor ve herhangi bir eğitim gerektirmiyor. Araştırmacılar, beş farklı model üzerinde 24 kontrollü ikili kavram ailesi ile test yaptı. Sonuçlar oldukça etkileyici: yöntem, yönlendirme etkinliğini %86-91 arası korelasyon oranıyla tahmin edebildi.
Çalışma ayrıca üç rejimli bir çerçeve sunuyor: ortalamalar arasındaki fark yönteminin ne zaman işlediği, doğrusal olmayan yöntemlerin ne zaman gerekli olduğu ve hiçbir yöntemin işlemeyeceği durumları açıklıyor. Gemma-2-2B modeli üzerinde yapılan entity-steering demosu, tahminlerin uçtan uca doğruluğunu kanıtladı.