Büyük dil modelleri günümüzde pek çok alanda etkileyici performans sergiliyor, ancak yavaş çalışma hızları kullanımlarını kısıtlıyor. Araştırmacılar bu sorunu çözmek için 'erken çıkış' (early exit) tekniğini kullanıyor - yani modelin gereksiz katmanlarını atlayarak işlem süresini kısaltmaya çalışıyorlar.
Ancak bu yaklaşımda önemli bir engel var: KV önbelleği sorunu. Decoder mimarisine sahip modellerde, atlanan katmanlar sonraki işlemler için gerekli olan tarihsel verileri sağlayamıyor. Mevcut çözümler ya işlem süresini uzatıyor ya da doğruluktan ödün veriyor.
River-LLM adlı yeni framework bu sorunu çözüyor. Sistem, ek eğitim gerektirmeden çalışan ve 'KV-Paylaşımlı Çıkış Nehri' adı verilen hafif bir yapı kullanıyor. Bu yapı, ana modelin eksik olan önbellek verilerini doğal olarak üretmesine olanak tanıyor.
Deneysel sonuçlar oldukça umut verici. River-LLM, çeşitli görevlerde %23'e varan hızlanma sağlarken doğruluğu koruyor. Sistem özellikle uzun metinler üzerinde çalışırken daha etkili oluyor.
Bu gelişme, yapay zeka modellerinin günlük uygulamalarda daha pratik hale gelmesine katkı sağlayabilir ve enerji tüketimini de azaltabilir.