AI modellerinde yönlendirme vektörlerinin başarısını önceden tahmin etme yöntemi

Araştırmacılar, yapay zeka modellerinde yönlendirme vektörlerinin ne zaman etkili olacağını önceden tahmin edebilen yeni bir yöntem geliştirdi. Linear Accessibility Profile (LAP) adı verilen bu teknik, modelin hangi katmanlarında müdahalenin başarılı olacağını deneme yapmadan belirleyebiliyor. Pythia-2.8B'den Llama-8B'ye kadar beş farklı model üzerinde yapılan testlerde, yöntem %86-91 arası doğruluk oranıyla başarı tahmininde bulundu. Bu gelişme, AI güvenliği ve model davranış kontrolü alanında önemli bir adım olarak değerlendiriliyor. Yöntem, modellerin istenmeyen çıktılarını engellemek ve belirli konularda yönlendirmek için kullanılan steering vektörlerinin etkinliğini artırabilir.

Yapay zeka araştırmacıları, büyük dil modellerinde yönlendirme vektörlerinin başarısını önceden tahmin edebilen yenilikçi bir yöntem geliştirdi. Linear Accessibility Profile (LAP) adı verilen bu teknik, AI güvenliği ve model kontrol alanında önemli bir gelişme olarak öne çıkıyor.

Yönlendirme vektörleri, AI modellerinin belirli konulardaki davranışlarını değiştirmek için kullanılan teknikler. Ancak bu vektörler bazı kavramlar ve katmanlar için işe yararken, diğerleri için başarısız olabiliyor. Şimdiye kadar uygulayıcılar, hangi ayarların etkili olacağını müdahale yapmadan önce tahmin edemiyordu.

Yeni yöntem, modelin 'unembedding matrix'ini ara gizli durumlara uygulayarak çalışıyor ve herhangi bir eğitim gerektirmiyor. Araştırmacılar, beş farklı model üzerinde 24 kontrollü ikili kavram ailesi ile test yaptı. Sonuçlar oldukça etkileyici: yöntem, yönlendirme etkinliğini %86-91 arası korelasyon oranıyla tahmin edebildi.

Çalışma ayrıca üç rejimli bir çerçeve sunuyor: ortalamalar arasındaki fark yönteminin ne zaman işlediği, doğrusal olmayan yöntemlerin ne zaman gerekli olduğu ve hiçbir yöntemin işlemeyeceği durumları açıklıyor. Gemma-2-2B modeli üzerinde yapılan entity-steering demosu, tahminlerin uçtan uca doğruluğunu kanıtladı.