Büyük dil modellerinin eğitimi, muazzam miktarda GPU hafıza gerektiren karmaşık bir süreç. Araştırmacılar bu soruna çözüm olarak AGoQ (Activation and Gradient Quantization) adlı yenilikçi bir teknik geliştirdi.
AGoQ sistemi iki temel bileşenden oluşuyor. İlk olarak, farklı katman türleri ve pipeline aşamalarına göre uygun bit genişlikleri ayıran katman-farkındalı bir aktivasyon sıkıştırma algoritması kullanıyor. Bu sayede neredeyse 4-bit aktivasyon depolama seviyesine ulaşıyor. İkinci bileşen ise 8-bit gradient depolama ve hassasiyeti koruyan 8-bit All-Reduce iletişimi kullanarak hem hafıza kullanımını azaltıyor hem de iletişim süresini kısaltıyor.
Mevcut sıkıştırma yöntemleri genellikle 4-bit aktivasyonlar ve 8-bit gradientler için etkisiz kalıyor, bu da yavaş yakınsama veya doğruluk kaybına neden oluyor. AGoQ bu problemleri çözmeyi başarıyor.
İki farklı GPU kümesinde 64 GPU'ya kadar yapılan kapsamlı testlerde sistem, hafıza kullanımını %52 oranında azaltırken eğitim hızını 1.34 kata kadar artırdı. Bu gelişme, büyük yapay zeka modellerinin eğitimini daha erişilebilir hale getirebilir ve önemli maliyet tasarrufları sağlayabilir.