Teknoloji & Yapay Zeka

Yeni dikkat mekanizması yapay zekânın uzun metinlerdeki performansını artırıyor

Araştırmacılar, büyük dil modellerinin uzun metinlerle çalışırken yaşadığı temel sorunları çözen yeni bir dikkat mekanizması geliştirdi. Threshold Differential Attention (TDA) adlı bu yöntem, geleneksel softmax dikkatinin yapısal sınırlarını aşarak, modellerin gereksiz kelimelere odaklanmasını engelliyor ve uzun dizilerde daha verimli çalışmasını sağlıyor. Klasik yöntemlerde dikkat dağılımının toplamı bir olması gerektiği için, model bazen ilgisiz kelimelere de dikkat ayırmak zorunda kalıyor. TDA ise sadece belirli bir eşiği aşan önemli kelimelere odaklanarak hem hesaplama maliyetini düşürüyor hem de performansı artırıyor.

Stanford ve diğer kurumlardan araştırmacılar, büyük dil modellerinin uzun metinlerle başa çıkmasını sağlayan yenilikçi bir dikkat mekanizması geliştirdi. Threshold Differential Attention (TDA) olarak adlandırılan bu yöntem, mevcut softmax dikkatinin temel sınırlarını aşmayı hedefliyor.

Geleneksel softmax dikkatinde, tüm kelimelere verilen dikkat ağırlıklarının toplamı bir olmak zorunda. Bu kısıtlama, modeli bazen alakasız kelimelere de dikkat ayırmaya zorluyor ve metin uzadıkça dikkat daha da dağılıyor. Araştırmacılar bu sorunu 'dikkat batağı' olarak tanımlıyor.

TDA, bu problemi iki önemli yenilikle çözüyor. İlk olarak, sadece belirli bir eşiği aşan kelimelere dikkat vererek ultra-seyrek bir yapı oluşturuyor. İkinci olarak, diferansiyel transformatörlerden ilham alarak, engelleyici bir görünüm çıkararak ifade gücünü artırıyor.

Teorik analizler, TDA'nın her satırda beklenen sahte eşleşme sayısını sabit seviyede tuttuğunu ve bağımsız görünümler arasındaki yanıltıcı eşleşmelerin bağlam uzadıkça kaybolduğunu gösteriyor. Bu, uzun metinlerde daha tutarlı ve güvenilir performans anlamına geliyor.

Yeni yöntem, hesaplama yükü artırmadan ve standart düzeltilmiş dikkat yöntemlerinin neden olduğu performans kaybı yaşamadan bu iyileştirmeleri sağlıyor.

Özgün Kaynak
arXiv (CS + AI)
Threshold Differential Attention for Sink-Free, Ultra-Sparse, and Non-Dispersive Language Modeling
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.