Araştırmacılar, yapay sinir ağlarının eğitimi için düşük-rankli ortogonalizasyon adı verilen yeni bir yöntem geliştirdi. Bu yaklaşım, sinir ağı parametrelerinin matris yapısını göz önünde bulundurarak optimizasyon sürecini iyileştiriyor. Geliştirilen yöntem, özellikle büyük dil modelleri olan GPT-2 ve LLaMA gibi temel modellerin eğitiminde önemli performans artışları sağlıyor. Yeni teknik, gradyanların düşük-rankli doğasından yararlanarak matris ortogonalizasyonu gerçekleştiriyor ve mevcut Muon optimizatörünün geliştirilmiş bir versiyonunu sunuyor. Bu gelişme, yapay zeka modellerinin daha verimli eğitilmesi için önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Optimizasyonunda Çığır Açan Birleşik Çerçeve Geliştirildi

Araştırmacılar, yapay zeka ve makine öğrenmesinde kullanılan optimizasyon algoritmalarını tek çatı altında toplayan yenilikçi bir matematiksel çerçeve geliştirdi. Bu çalışma, AdaGrad, AdaNorm, Shampoo ve Muon gibi popüler algoritmaları birleştirerek, konveks olmayan optimizasyon problemlerinde daha etkili çözümler sunuyor. Yeni yaklaşım, farklı değişken gruplarında heterojen geometrileri birleştirme imkanı sağlarken, birleşik bir yakınsama analizi koruyor. Özellikle büyük veri setleriyle çalışan AI sistemlerinin eğitim süreçlerinde önemli iyileştirmeler vaad eden bu gelişme, momentum kullanımlı ve kullanımsız versiyonları için kapsamlı yakınsama hızı analizleri içeriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Eğitimi 5 Kat Hızlanabilir

Büyük dil modellerinin (LLM) eğitim süreci, araştırmacıların geliştirdiği yeni matematiksel yaklaşımla dramatik şekilde hızlanabilir. Stanford araştırmacılarının yaptığı çalışmada, Gauss-Newton adlı ikinci dereceden optimizasyon yöntemi kullanılarak, 150 milyona kadar parametreli transformer modellerinin eğitim süresinde 5,4 kat azalma sağlandı. Bu yöntem, mevcut SOAP ve Muon gibi gelişmiş optimizasyon algoritmalarından önemli ölçüde daha iyi sonuçlar verdi. Araştırma, yapay zeka modellerinin eğitimi için kullanılan geleneksel yaklaşımların yetersizliğini ortaya koyarken, daha verimli eğitim yöntemlerinin mümkün olduğunu gösteriyor. Katman bazlı uygulamanın da tam yöntemle neredeyse eşit performans göstermesi, bu yaklaşımın pratikte uygulanabilirliğini artırıyor.

arXiv (CS + AI) 0