Vision Transformer (ViT) modellerinde kullanılan token budama yöntemleri, bilgisiz görüntü parçalarını atarak dikkat mekanizmasındaki hesaplama maliyetini karesel olarak azaltma vaadi taşıyor. Ancak araştırmacılar, bu teorik avantajın pratikte tam olarak yansıtılmadığını keşfetti.
Sorun, mevcut değişken uzunluklu dikkat API'leri olan FlashAttention-2'nin varlen ve PyTorch'un NestedTensor SDPA'sı ile budanmış sekanslar çalıştırıldığında, gerçek zamanlı dikkat gecikmesinin beklenen oranda iyileşmemesinde yatıyor. Araştırmacılar bu durumun nedenini dispatch-overhead darboğazına dayandırıyor.
ViT'lerde token budama sonrası ortaya çıkan kısa sekans uzunluklarında, mevcut sistemlerin optimizasyon yetenekleri sınırlanıyor. Bu duruma çözüm olarak geliştirilen 'dispatch-aware ragged attention' yaklaşımı, budama sonrası oluşan değişken uzunluktaki sekansları daha verimli şekilde işlemeyi hedefliyor.
Yeni yöntem, dispatch maliyetlerini hesaba katarak dikkat mekanizmasını optimize ediyor ve budanmış ViT'lerin gerçek dünya performansını teorik potansiyellerine daha yakın hale getiriyor. Bu gelişme, yapay zeka modellerinin pratik uygulamalarda hem doğruluk hem de hız açısından daha etkili çalışmasını sağlayacak.