Yapay Zeka Modellerinin Eğitiminde Hafıza Kullanımını Yarıya İndiren Yeni Teknik

Araştırmacılar, büyük dil modellerinin eğitimi sırasında GPU hafıza kullanımını dramatik şekilde azaltan AGoQ adlı yeni bir teknik geliştirdi. Bu yöntem, farklı katmanlar için uygun bit genişlikleri ayıran akıllı bir aktivasyon sıkıştırma algoritması ve 8-bit gradient depolama sistemi kullanıyor. 64 GPU'ya kadar test edilen sistem, hafıza kullanımını %52 oranında azaltırken, eğitim hızını 1.34 kata kadar artırdı. Geleneksel yöntemlerden farklı olarak, model doğruluğunda kayıp yaşanmadan bu verimliliği sağlıyor. Bu gelişme, büyük yapay zeka modellerinin eğitimini daha erişilebilir hale getirebilir ve daha az donanım kaynak gereksinimi sayesinde maliyetleri önemli ölçüde düşürebilir.

Büyük dil modellerinin eğitimi, muazzam miktarda GPU hafıza gerektiren karmaşık bir süreç. Araştırmacılar bu soruna çözüm olarak AGoQ (Activation and Gradient Quantization) adlı yenilikçi bir teknik geliştirdi.

AGoQ sistemi iki temel bileşenden oluşuyor. İlk olarak, farklı katman türleri ve pipeline aşamalarına göre uygun bit genişlikleri ayıran katman-farkındalı bir aktivasyon sıkıştırma algoritması kullanıyor. Bu sayede neredeyse 4-bit aktivasyon depolama seviyesine ulaşıyor. İkinci bileşen ise 8-bit gradient depolama ve hassasiyeti koruyan 8-bit All-Reduce iletişimi kullanarak hem hafıza kullanımını azaltıyor hem de iletişim süresini kısaltıyor.

Mevcut sıkıştırma yöntemleri genellikle 4-bit aktivasyonlar ve 8-bit gradientler için etkisiz kalıyor, bu da yavaş yakınsama veya doğruluk kaybına neden oluyor. AGoQ bu problemleri çözmeyi başarıyor.

İki farklı GPU kümesinde 64 GPU'ya kadar yapılan kapsamlı testlerde sistem, hafıza kullanımını %52 oranında azaltırken eğitim hızını 1.34 kata kadar artırdı. Bu gelişme, büyük yapay zeka modellerinin eğitimini daha erişilebilir hale getirebilir ve önemli maliyet tasarrufları sağlayabilir.