Vision Transformer'larda Token Budama İçin Yeni Dikkat Mekanizması Geliştirildi

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, Vision Transformer (ViT) modellerinde token budama işlemlerinin performans sorunlarını çözen yeni bir dikkat mekanizması geliştirdi. Token budama, önemsiz görüntü parçalarını atarak hesaplama maliyetini teorik olarak büyük ölçüde azaltsa da, pratikte mevcut değişken uzunluklu dikkat API'leri bu avantajı tam olarak yansıtamıyordu. Yeni geliştirilen 'dispatch-aware ragged attention' yöntemi, kısa sekans uzunluklarında ortaya çıkan dispatch-overhead darboğazını çözerek, budanmış ViT'lerin gerçek dünya performansını teorik potansiyellerine yaklaştırıyor. Bu çalışma, yapay zeka modellerinin hem doğruluk hem de hız açısından optimizasyonunda önemli bir adım teşkil ediyor.

Vision Transformer (ViT) modellerinde kullanılan token budama yöntemleri, bilgisiz görüntü parçalarını atarak dikkat mekanizmasındaki hesaplama maliyetini karesel olarak azaltma vaadi taşıyor. Ancak araştırmacılar, bu teorik avantajın pratikte tam olarak yansıtılmadığını keşfetti.

Sorun, mevcut değişken uzunluklu dikkat API'leri olan FlashAttention-2'nin varlen ve PyTorch'un NestedTensor SDPA'sı ile budanmış sekanslar çalıştırıldığında, gerçek zamanlı dikkat gecikmesinin beklenen oranda iyileşmemesinde yatıyor. Araştırmacılar bu durumun nedenini dispatch-overhead darboğazına dayandırıyor.

ViT'lerde token budama sonrası ortaya çıkan kısa sekans uzunluklarında, mevcut sistemlerin optimizasyon yetenekleri sınırlanıyor. Bu duruma çözüm olarak geliştirilen 'dispatch-aware ragged attention' yaklaşımı, budama sonrası oluşan değişken uzunluktaki sekansları daha verimli şekilde işlemeyi hedefliyor.

Yeni yöntem, dispatch maliyetlerini hesaba katarak dikkat mekanizmasını optimize ediyor ve budanmış ViT'lerin gerçek dünya performansını teorik potansiyellerine daha yakın hale getiriyor. Bu gelişme, yapay zeka modellerinin pratik uygulamalarda hem doğruluk hem de hız açısından daha etkili çalışmasını sağlayacak.

Vision Transformer'larda Token Budama İçin Yeni Dikkat Mekanizması Geliştirildi

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Genç Ergenlerin Yarısı Yapay Zeka Sohbet Botlarından Zarar Görüyor

İnsanlar yapay zekanın kendine olan güvenini fazla tahmin ediyor

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor