Yapay zeka alanında büyük dil modellerinin eğitimi için kullanılan optimizasyon algoritmalarında önemli bir gelişme yaşandı. Araştırmacılar, SignSGD algoritmasının uzun süredir devam eden temel problemlerini çözen StoSignSGD adlı yeni bir yöntem geliştirdi.
İşaret tabanlı optimizasyon algoritmaları, özellikle dağıtık öğrenme ortamlarında ve büyük temel modellerin eğitiminde dikkat çekici performans gösteriyordu. Ancak SignSGD'nin pürüzsüz olmayan hedef fonksiyonlarda yakınsama sorunları yaşaması, modern makine öğrenmesinde büyük bir engel oluşturuyordu. ReLU aktivasyon fonksiyonları, max-pooling katmanları ve uzman karışımı modelleri gibi yaygın kullanılan bileşenler bu tür pürüzsüz olmayan durumlar yaratıyor.
StoSignSGD, işaret operatörüne yapısal rastgelelik enjekte ederek bu sorunu çözüyor. Algoritma, yansız güncelleme adımlarını korurken yakınsama problemlerini gideriyor. Konveks optimizasyon durumunda, teorik analiz sonuçları algoritmanın keskin yakınsama oranları elde ettiğini ve alt sınırla eşleştiğini gösteriyor.
Daha karmaşık olan konveks olmayan ve pürüzsüz olmayan optimizasyon problemleri için ise araştırmacılar, genelleştirilmiş durağanlık ölçüleri tanımlayarak StoSignSGD'nin performans iyileştirmelerini matematiksel olarak kanıtladı. Bu gelişme, büyük yapay zeka modellerinin daha verimli ve güvenilir şekilde eğitilmesi için önemli bir adım.