Yapay zeka araştırmacıları, büyük dil modellerinin eğitimi sırasında karşılaşılan iki temel sorunu birden çözen yenilikçi bir algoritma geliştirdi. ConMeZO adı verilen bu yöntem, hem bellek kullanımını azaltıyor hem de eğitim süresini kısaltıyor.
Geleneksel makine öğrenmesi yöntemleri, modeli iyileştirmek için geri yayılım tekniğini kullanır. Ancak milyarlarca parametreye sahip büyük dil modellerinde bu yaklaşım çok fazla bellek gerektirir. Bunun alternatifi olan sıfırıncı derece optimizasyon (MeZO) yöntemleri bellek sorununu çözer ama çok yavaş çalışır.
ConMeZO, bu sorunu momentum tahminleri kullanarak çözer. Algoritma, rastgele arama yapmak yerine, gerçek gradyanın bulunma olasılığının yüksek olduğu yönlerde koni şeklinde örnekleme yapar. Bu akıllı strateji, yüksek boyutlu uzaylarda arama yaparken karşılaşılan zorlukları hafifletir.
Araştırma ekibi, ConMeZO'nun teorik olarak MeZO ile aynı yakınsama garantisini verdiğini matematiksel olarak kanıtladı. Pratik testlerde ise algoritma, doğal dil işleme görevlerinde iki kat daha hızlı sonuç verirken düşük bellek kullanım avantajını korudu.
Bu gelişme, özellikle sınırlı donanım kaynaklarına sahip araştırmacılar ve şirketler için büyük önem taşıyor.