Büyük dil modelleri uzun metinlerle çalışırken ciddi performans sorunlarıyla karşılaşıyor. Her yeni kelime üretilirken, modelin daha önceki tüm kelimeleri tekrar işlemesi gerekiyor ve bu durum bellek kullanımını dramatik şekilde artırıyor. Mevcut çözümler genellikle hızı artırmak için doğruluktan fedakarlık yapıyor.
Yeni geliştirilen SinkRouter sistemi, bu soruna farklı bir yaklaşım getiriyor. Araştırmacılar, dikkat mekanizmasındaki 'attention sink' olgusunun aslında modelin eğitim sürecinde oluşan sabit bir matematik yapı olduğunu keşfetti. Bu yapı, tahmin edilebilir ve kontrol edilebilir özellikler taşıyor.
SinkRouter, bu bulgudan yola çıkarak hangi hesaplamaların sıfıra yakın sonuç üreteceğini önceden tespit ediyor ve bu işlemleri atlıyor. Bu sayede hem bellek kullanımı azalıyor hem de işlem hızı artıyor. Sistem herhangi bir ek eğitim gerektirmiyor ve mevcut modellere doğrudan entegre edilebiliyor.
Testler, SinkRouter'ın 3 kata kadar hızlanma sağladığını gösteriyor. Bu gelişme özellikle uzun dökümanları analiz eden, kitap özetleri çıkaran veya kapsamlı sohbetler yürüten yapay zeka uygulamaları için büyük önem taşıyor.