Yapay Zeka Modellerinde Gizli Hesaplama Hatası: FP16 Keşfi

Araştırmacılar, büyük dil modellerinde yaygın kullanılan KV önbellekleme optimizasyonunun, bugüne kadar varsayıldığı gibi sayısal olarak eşdeğer olmadığını keşfetti. FP16 hassasiyetinde, önbellek kullanan ve kullanmayan hesaplama yolları farklı sonuçlar üretiyor. LLaMA-2-7B, Mistral-7B-v0.3 ve Gemma-2-2B modellerinde yapılan testlerde, tüm örnekleme stratejilerinde %100 token farklılığı gözlemlendi. Bu durum, rastgele örneklemenin değil, sistematik bir hesaplama farkının olduğunu gösteriyor. İlginç şekilde, önbellek kullanan versiyonlar 9 koşuldan 8'inde daha yüksek doğruluk gösterdi. Problem FP16 formatının değişmeli olmayan özelliğinden kaynaklanıyor ve FP32 kullanıldığında sekiz kat azalıyor.

Yapay zeka alanında önemli bir keşif yapan araştırmacılar, büyük dil modellerinde performans artırımı için kullanılan KV önbellekleme tekniğinin beklenmedik bir yan etkisini ortaya çıkardı. Bu teknik, modellerin daha hızlı çalışmasını sağlarken, aynı zamanda sonuçlarda sistematik farklılıklara neden oluyor.

KV önbellekleme, transformer tabanlı modellerde yaygın kullanılan bir optimizasyon yöntemi olup, hesaplama hızını artırmak için önceki hesaplamaları saklar. Ancak yeni araştırma, FP16 hassasiyetinde bu yöntemin önbellek kullanmayan hesaplamalardan farklı sonuçlar ürettiğini gösteriyor.

Araştırmada LLaMA-2-7B, Mistral-7B-v0.3 ve Gemma-2-2B gibi üç farklı açık kaynak modeli GSM8K veri setinde test edildi. Sonuçlar şaşırtıcıydı: tüm örnekleme stratejilerinde, hatta deterministik açgözlü kod çözümünde bile %100 token farklılığı gözlemlendi.

Bu farklılığın nedeni, FP16 formatının matematiksel olarak değişmeli olmaması (non-associativity). Önbellek kullanan ve kullanmayan yollar, aynı işlemleri farklı sıralarda yaparak farklı sonuçlar üretiyor. Daha da ilginç olanı, önbellek kullanan versiyonların 9 koşuldan 8'inde daha yüksek doğruluk göstermesi.

Araştırmacılar, FP32 hassasiyeti kullanıldığında bu farklılığın sekiz kat azaldığını ve token değişikliklerinin neredeyse tamamen ortadan kalktığını doğruladı. Bu keşif, AI sistemlerinin güvenilirliği ve tutarlılığı açısından önemli sonuçlar doğuruyor.