Stanford ve diğer kurumlardan araştırmacılar, yapay zeka modellerinde dikkat mekanizmasının nasıl çalıştığına dair önemli bir paradoksu ortaya çıkardı. Hibrit dizi modellerinde hangi token'ların (kelime parçalarının) pahalı dikkat işlemini hak ettiğini belirlemek için çift yönlü hesaplama gereksiniminin kaçınılmaz olduğunu keşfettiler.
Araştırma ekibi, üç farklı görevde 200 bin ile 1,4 milyar parametre arasında değişen ölçeklerde 20'den fazla kontrollü deney gerçekleştirdi. 15 farklı yönlendirme mekanizmasını test eden kapsamlı çalışma, yönlendirme manzarasını detaylı şekilde haritaladı.
Sonuçlar oldukça çarpıcı: Yüksek yönlendirme doğruluğuna ulaşan her sistem, çift yönlü token karşılaştırması kullanıyordu. Buna karşın, çift yönlü hesaplamayı atlayan tüm mekanizmalar başarısız oldu. Mamba-1.4B gibi tekrarlayan modeller %29, bellek bankaları %12, bandit algoritmaları %0,7-3,6, kontrastif ön eğitim %1,6 başarı oranında kaldı.
Araştırmacılar etkili yönlendirme için iki temel bileşen tanımladı: çift yönlü bağlamlı token temsilleri ve çift yönlü token karşılaştırması. Çift yönlü Mamba ile birleştirilmiş çift yönlü karşılaştırma %99,5 başarı sağlarken, tam çift yönlü yönlendiricinin rank-1 projeksiyon ile değiştirilmesi bu oranı %99,7'ye çıkardı.