Stanford ve diğer kurumlardan araştırmacılar, büyük dil modellerinin uzun metinlerle başa çıkmasını sağlayan yenilikçi bir dikkat mekanizması geliştirdi. Threshold Differential Attention (TDA) olarak adlandırılan bu yöntem, mevcut softmax dikkatinin temel sınırlarını aşmayı hedefliyor.
Geleneksel softmax dikkatinde, tüm kelimelere verilen dikkat ağırlıklarının toplamı bir olmak zorunda. Bu kısıtlama, modeli bazen alakasız kelimelere de dikkat ayırmaya zorluyor ve metin uzadıkça dikkat daha da dağılıyor. Araştırmacılar bu sorunu 'dikkat batağı' olarak tanımlıyor.
TDA, bu problemi iki önemli yenilikle çözüyor. İlk olarak, sadece belirli bir eşiği aşan kelimelere dikkat vererek ultra-seyrek bir yapı oluşturuyor. İkinci olarak, diferansiyel transformatörlerden ilham alarak, engelleyici bir görünüm çıkararak ifade gücünü artırıyor.
Teorik analizler, TDA'nın her satırda beklenen sahte eşleşme sayısını sabit seviyede tuttuğunu ve bağımsız görünümler arasındaki yanıltıcı eşleşmelerin bağlam uzadıkça kaybolduğunu gösteriyor. Bu, uzun metinlerde daha tutarlı ve güvenilir performans anlamına geliyor.
Yeni yöntem, hesaplama yükü artırmadan ve standart düzeltilmiş dikkat yöntemlerinin neden olduğu performans kaybı yaşamadan bu iyileştirmeleri sağlıyor.