SAGE: Büyük Dil Modellerinin Bellek Sorununu Çözen Yeni Optimizasyon Algoritması

18 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerinin eğitiminde karşılaşılan kritik bellek sorununu çözen SAGE adlı yeni bir optimizasyon algoritması geliştirdi. Mevcut AdamW optimizatörü, modelin iki katı büyüklüğünde bellek tüketirken, önceki hafif alternatifler embedding katmanlarındaki yüksek varyanslı gradyanlarla başa çıkamıyordu. SAGE, Lion tarzı güncelleme yöntemini yeni bir bellek-verimli ölçeklendirme tekniğiyle birleştirerek bu sorunu çözüyor. Algoritmanın 'güvenli sönümleyici' özelliği, yüksek varyanslı boyutları mevcut yöntemlerden daha etkili şekilde kontrol altına alarak daha iyi yakınsama sağlıyor. 1.3 milyar parametreye kadar Llama modellerinde test edilen SAGE tabanlı hibrit sistem, önemli bellek tasarrufu sağlarken performansı koruyor.

Büyük dil modellerinin (LLM) eğitiminde kullanılan standart AdamW optimizatörü, bellek kullanımında kritik bir darboğaz yaratıyor. Bu sistem, modelin kendisinin iki katı kadar bellek tüketerek, büyük modellerin eğitimini zorlaştırıyor.

Araştırmacılar bu sorunu çözmek için SinkGD gibi hafif optimizatörler geliştirmişti, ancak bu yaklaşımlar 'embedding katmanı ikilemi' olarak adlandırılan önemli bir sorunla karşılaştı. Bu yöntemler, embedding katmanlarındaki seyrek ve yüksek varyanslı gradyanlarla başa çıkamıyor, bu da hibrit tasarımlara ve AdamW'ye geri dönüşe zorluyor.

Yeni geliştirilen SAGE (Sign Adaptive GradiEnt) algoritması bu ikilemı çözen özgün bir yaklaşım sunuyor. SAGE, Lion tarzı güncelleme yönünü yeni bir bellek-verimli O(d) uyarlanabilir ölçekle birleştiriyor.

Algoritmanın en önemli özelliği 'güvenli sönümleyici' işlevi gören ve matematiksel olarak 1.0 ile sınırlı olan ölçeklendirme mekanizması. Bu sistem, yüksek varyanslı boyutları mevcut yöntemlerden çok daha etkili şekilde kontrol altına alıyor ve üstün kararlılık sağlıyor.

1.3 milyar parametreye kadar Llama modellerinde yapılan testler, SAGE tabanlı hibrit sistemin hem önemli bellek tasarrufu sağladığını hem de daha iyi yakınsama performansı gösterdiğini ortaya koyuyor.

Etiketler

#yapay zeka #makine öğrenmesi #optimizasyon #dil modelleri #bellek yönetimi

Özgün Kaynak

SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

https://arxiv.org/abs/2604.07663

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.