Büyük dil modellerinin yaygın kullanımı, bu sistemlerin çalışma verimliliğini artırma ihtiyacını da beraberinde getiriyor. Araştırmacılar geleneksel olarak modellerin çalışma sürecini iki ana aşamaya ayırıyor: başlangıç işleme (prefill) ve üretim (decode) aşamaları. Üretim aşaması toplam sürenin büyük kısmını oluşturduğu için, bu alanda verimlilik artırıcı çözümler aranıyor.
Yeni araştırma, seyrek dikkat algoritmalarının beklenmedik bir sorunla karşılaştığını ortaya koyuyor. Bu algoritmalar teorik olarak işlem yükünü azaltmayı hedeflerken, pratikte 'Less is Less' (Lil) adı verilen bir fenomenle karşılaşılıyor. Bilgi kaybı nedeniyle sistemler daha uzun metinler üretmek zorunda kalıyor ve bu da toplam işlem karmaşıklığını artırıyor.
Araştırmacılar hem deneysel hem de teorik analizlerle bu paradoksal durumu doğruladı. Seyrek dikkat kullanımının, beklenenin aksine uçtan uca karmaşıklığı artırabildiğini gösterdiler. Bu durum, yapay zeka optimizasyonlarında sadece teknik parametrelere odaklanmanın yeterli olmadığını işaret ediyor.
Soruna çözüm olarak geliştirilen erken durdurma algoritması, bilgi kaybının bilgi kazancını aştığı kritik noktayı tespit ediyor. Bu yöntem, token kullanımını %90'a varan oranlarda azaltırken doğruluk kaybını minimum düzeyde tutuyor. Çalışma, yapay zeka sistemlerinin verimlilik optimizasyonlarında daha kapsamlı yaklaşımların gerekliliğini vurguluyor.