Teknoloji & Yapay Zeka

Yapay Zeka Modellerini Daha Hızlı Eğiten Yeni Optimizasyon Yöntemi Geliştirildi

Araştırmacılar, büyük dil modellerinin bellek ihtiyacını azaltırken eğitim süresini de kısaltan ConMeZO adlı yeni bir optimizasyon algoritması geliştirdi. Geleneksel gradient tabanlı yöntemlerin aksine, bu teknik geri yayılım kullanmadan çalışarak bellek kullanımını dramatik olarak düşürüyor. ConMeZO, momentum tahminleri etrafında koni şeklinde örnekleme yaparak arama yönünü akıllıca sınırlıyor ve böylece milyarlarca parametreye sahip modellerde yaşanan boyut lanetini hafifletiyor. Doğal dil işleme görevlerinde yapılan testlerde, bu yöntem mevcut MeZO algoritmasından iki kat daha hızla sonuç verirken düşük bellek avantajını koruyor.

Yapay zeka araştırmacıları, büyük dil modellerinin eğitimi sırasında karşılaşılan iki temel sorunu birden çözen yenilikçi bir algoritma geliştirdi. ConMeZO adı verilen bu yöntem, hem bellek kullanımını azaltıyor hem de eğitim süresini kısaltıyor.

Geleneksel makine öğrenmesi yöntemleri, modeli iyileştirmek için geri yayılım tekniğini kullanır. Ancak milyarlarca parametreye sahip büyük dil modellerinde bu yaklaşım çok fazla bellek gerektirir. Bunun alternatifi olan sıfırıncı derece optimizasyon (MeZO) yöntemleri bellek sorununu çözer ama çok yavaş çalışır.

ConMeZO, bu sorunu momentum tahminleri kullanarak çözer. Algoritma, rastgele arama yapmak yerine, gerçek gradyanın bulunma olasılığının yüksek olduğu yönlerde koni şeklinde örnekleme yapar. Bu akıllı strateji, yüksek boyutlu uzaylarda arama yaparken karşılaşılan zorlukları hafifletir.

Araştırma ekibi, ConMeZO'nun teorik olarak MeZO ile aynı yakınsama garantisini verdiğini matematiksel olarak kanıtladı. Pratik testlerde ise algoritma, doğal dil işleme görevlerinde iki kat daha hızlı sonuç verirken düşük bellek kullanım avantajını korudu.

Bu gelişme, özellikle sınırlı donanım kaynaklarına sahip araştırmacılar ve şirketler için büyük önem taşıyor.

Özgün Kaynak
arXiv (CS + AI)
ConMeZO: Adaptive Descent-Direction Sampling for Gradient-Free Finetuning of Large Language Models
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.