Büyük dil modellerinin (LLM) eğitiminde kullanılan standart AdamW optimizatörü, bellek kullanımında kritik bir darboğaz yaratıyor. Bu sistem, modelin kendisinin iki katı kadar bellek tüketerek, büyük modellerin eğitimini zorlaştırıyor.
Araştırmacılar bu sorunu çözmek için SinkGD gibi hafif optimizatörler geliştirmişti, ancak bu yaklaşımlar 'embedding katmanı ikilemi' olarak adlandırılan önemli bir sorunla karşılaştı. Bu yöntemler, embedding katmanlarındaki seyrek ve yüksek varyanslı gradyanlarla başa çıkamıyor, bu da hibrit tasarımlara ve AdamW'ye geri dönüşe zorluyor.
Yeni geliştirilen SAGE (Sign Adaptive GradiEnt) algoritması bu ikilemı çözen özgün bir yaklaşım sunuyor. SAGE, Lion tarzı güncelleme yönünü yeni bir bellek-verimli O(d) uyarlanabilir ölçekle birleştiriyor.
Algoritmanın en önemli özelliği 'güvenli sönümleyici' işlevi gören ve matematiksel olarak 1.0 ile sınırlı olan ölçeklendirme mekanizması. Bu sistem, yüksek varyanslı boyutları mevcut yöntemlerden çok daha etkili şekilde kontrol altına alıyor ve üstün kararlılık sağlıyor.
1.3 milyar parametreye kadar Llama modellerinde yapılan testler, SAGE tabanlı hibrit sistemin hem önemli bellek tasarrufu sağladığını hem de daha iyi yakınsama performansı gösterdiğini ortaya koyuyor.