Büyük Dil Modellerini Eğitmek için Yeni Akıllı Optimizasyon Yöntemi Geliştirildi

Araştırmacılar, büyük dil modellerinin eğitimi için bellek dostu bir yaklaşım olan sıfırıncı dereceden optimizasyonun temel sorunlarını çözen yeni bir algoritma geliştirdi. AdaLeZO adlı bu yöntem, yapay sinir ağlarının farklı katmanlarının hassasiyetlerini dikkate alarak akıllı bir örnekleme stratejisi kullanıyor. Geleneksel yaklaşımların aksine, tüm katmanları eşit şekilde işlemek yerine, hangi katmanların daha önemli olduğunu dinamik olarak belirliyor. Bu sayede hem eğitim süresini kısaltıyor hem de daha kararlı sonuçlar elde ediyor. Çalışma, mevcut yöntemlerde pertürbasyon üretimi ve parametre güncellemelerinin toplam eğitim süresinin %40'ından fazlasını aldığı kritik darboğazı ortaya koyuyor.

Büyük dil modellerinin eğitimi için geliştirilen sıfırıncı dereceden optimizasyon yöntemleri, bellek verimliliği açısından umut verici olmalarına rağmen, pratikte yavaş yakınsama ve yüksek tahmin varyansı sorunlarıyla karşı karşıya kalıyor. Yeni araştırma, bu sorunların temel nedenlerini analiz ederek çözüm önerisi sunuyor.

Araştırmacılar, mevcut algoritmaların çalışma zamanı özelliklerini detaylı şekilde incelemiş ve kritik bir sistem darboğazı tespit etmiş. Pertürbasyon üretimi ve parametre güncellemeleri, toplam eğitim gecikmesinin %40'ından fazlasını oluşturuyor. Bu durum, özellikle büyük ölçekli modellerde ciddi performans kayıplarına yol açıyor.

Geliştirilen AdaLeZO (Adaptive Layer-wise ZO) çerçevesi, bu soruna yenilikçi bir yaklaşım getiriyor. Sistem, katman seçim sürecini durağan olmayan Çok Kollu Haydut problemi olarak formüle ederek, sınırlı pertürbasyon kaynaklarını dinamik şekilde tahsis ediyor. Bu yaklaşım, derin ağlardaki katmanların heterojen hassasiyetlerini dikkate alarak hesaplama kaynaklarının daha verimli kullanılmasını sağlıyor.

Yöntemin temel avantajı, standart tekdüze keşif stratejisinin aksine, hangi katmanların model performansı üzerinde daha etkili olduğunu öğrenmesi ve kaynaklarını bu alanlara odaklaması. Bu sayede hem daha hızlı yakınsama hem de daha düşük varyans elde ediliyor.