Büyük dil modellerinin uzun metinlerle çalışırken karşılaştığı en kritik sorunlardan biri, dikkat mekanizmasının karmaşıklığının metın uzunluğuyla birlikte katlanarak artmasıdır. Bu durum, modellerin performansını ciddi şekilde sınırlamaktadır.
Yeni geliştirilen Token Sparse Attention yöntemi, bu soruna yenilikçi bir çözüm getiriyor. Geleneksel hızlandırma teknikleri genellikle iki yaklaşım benimser: ya dikkat haritasını önceden belirlenmiş kalıplarla seyrekleştirirler ya da belirli katmanlarda token'ları kalıcı olarak çıkarırlar. Ancak bu yöntemler, alakasız bilgileri tutabilir veya geri alınamaz erken kararlar verebilir.
Token Sparse Attention bunun yerine hafif ve dinamik bir token seviyesi seyrekleştirme mekanizması kullanır. Bu sistem, her dikkat kafası için Q, K, V matrislerini azaltılmış bir token kümesine sıkıştırır, ardından çıktıyı orijinal diziye geri açar. Bu sayede token bilgileri sonraki katmanlarda yeniden değerlendirilebilir.
Araştırmacıların geliştirdiği bu yaklaşım, Flash Attention gibi yoğun dikkat uygulamalarıyla tam uyumlu çalışabiliyor. Bu özellik, mevcut sistemlere entegrasyonu kolaylaştırırken, token seçimi ve seyrek dikkat arasında yeni bir tasarım noktası ortaya çıkarıyor.