Büyük dil modellerinin en önemli sorunlarından biri, uzun metinlerle çalışırken ortaya çıkan hafıza darboğazı. Örneğin, Llama-3.1-8B modeli 32 bin kelimelik bir metni işlerken yaklaşık 16GB hafıza gereksinimi duyuyor - bu miktar, modelin kendi ağırlığından bile fazla.
Bu soruna çözüm bulmak için geliştirilen OjaKV sistemi, iki temel prensibi bir araya getiriyor. İlk olarak, her kelimenin eşit önemde olmadığı gerçeğinden hareketle, metindeki ilk ve son kelimeleri tam kalitede saklıyor. Bu kelimeler, modelin dikkat mekanizması için kritik birer çapa görevi görüyor.
İkinci olarak sistem, geleneksel yöntemlerin aksine statik değil, dinamik bir yaklaşım benimsiyor. Farklı veri türleriyle karşılaştığında kendini otomatik olarak uyarlayabilen bir alt uzay öğrenme mekanizması kullanıyor. Bu sayede, önceden belirlenmiş sabit sıkıştırma yöntemlerinin aksine, içerikle uyumlu bir optimizasyon gerçekleştiriyor.
Araştırmacıların geliştirdiği hibrit depolama politikası, hangi kelimelerin tam kalitede, hangilerinin sıkıştırılmış formatta saklanacağını akıllıca belirliyor. Bu yaklaşım, modelin performansından ödün vermeden hafıza kullanımını önemli ölçüde azaltmayı başarıyor.
OjaKV'nin en önemli avantajı, çevrimiçi öğrenme kabiliyeti. Sistem, yeni verilerle karşılaştıkça kendini sürekli güncelleyerek, değişen veri dağılımlarına uyum sağlayabiliyor.