Yapay zeka alanında önemli bir keşif yapan araştırmacılar, büyük dil modellerinde performans artırımı için kullanılan KV önbellekleme tekniğinin beklenmedik bir yan etkisini ortaya çıkardı. Bu teknik, modellerin daha hızlı çalışmasını sağlarken, aynı zamanda sonuçlarda sistematik farklılıklara neden oluyor.
KV önbellekleme, transformer tabanlı modellerde yaygın kullanılan bir optimizasyon yöntemi olup, hesaplama hızını artırmak için önceki hesaplamaları saklar. Ancak yeni araştırma, FP16 hassasiyetinde bu yöntemin önbellek kullanmayan hesaplamalardan farklı sonuçlar ürettiğini gösteriyor.
Araştırmada LLaMA-2-7B, Mistral-7B-v0.3 ve Gemma-2-2B gibi üç farklı açık kaynak modeli GSM8K veri setinde test edildi. Sonuçlar şaşırtıcıydı: tüm örnekleme stratejilerinde, hatta deterministik açgözlü kod çözümünde bile %100 token farklılığı gözlemlendi.
Bu farklılığın nedeni, FP16 formatının matematiksel olarak değişmeli olmaması (non-associativity). Önbellek kullanan ve kullanmayan yollar, aynı işlemleri farklı sıralarda yaparak farklı sonuçlar üretiyor. Daha da ilginç olanı, önbellek kullanan versiyonların 9 koşuldan 8'inde daha yüksek doğruluk göstermesi.
Araştırmacılar, FP32 hassasiyeti kullanıldığında bu farklılığın sekiz kat azaldığını ve token değişikliklerinin neredeyse tamamen ortadan kalktığını doğruladı. Bu keşif, AI sistemlerinin güvenilirliği ve tutarlılığı açısından önemli sonuçlar doğuruyor.