Büyük dil modellerinin eğitimi için geliştirilen sıfırıncı dereceden optimizasyon yöntemleri, bellek verimliliği açısından umut verici olmalarına rağmen, pratikte yavaş yakınsama ve yüksek tahmin varyansı sorunlarıyla karşı karşıya kalıyor. Yeni araştırma, bu sorunların temel nedenlerini analiz ederek çözüm önerisi sunuyor.
Araştırmacılar, mevcut algoritmaların çalışma zamanı özelliklerini detaylı şekilde incelemiş ve kritik bir sistem darboğazı tespit etmiş. Pertürbasyon üretimi ve parametre güncellemeleri, toplam eğitim gecikmesinin %40'ından fazlasını oluşturuyor. Bu durum, özellikle büyük ölçekli modellerde ciddi performans kayıplarına yol açıyor.
Geliştirilen AdaLeZO (Adaptive Layer-wise ZO) çerçevesi, bu soruna yenilikçi bir yaklaşım getiriyor. Sistem, katman seçim sürecini durağan olmayan Çok Kollu Haydut problemi olarak formüle ederek, sınırlı pertürbasyon kaynaklarını dinamik şekilde tahsis ediyor. Bu yaklaşım, derin ağlardaki katmanların heterojen hassasiyetlerini dikkate alarak hesaplama kaynaklarının daha verimli kullanılmasını sağlıyor.
Yöntemin temel avantajı, standart tekdüze keşif stratejisinin aksine, hangi katmanların model performansı üzerinde daha etkili olduğunu öğrenmesi ve kaynaklarını bu alanlara odaklaması. Bu sayede hem daha hızlı yakınsama hem de daha düşük varyans elde ediliyor.