Yapay zeka alanında büyük dil modellerinin (LLM) eğitimi, hem zaman hem de maliyet açısından en kritik sorunlardan biri haline geldi. Son araştırmalar, bu süreci hızlandırmak için çeşitli matematiksel yaklaşımlar geliştirmeye odaklanıyor.
Stanford Üniversitesi araştırmacılarının arXiv'de yayınladığı yeni çalışma, ikinci dereceden optimizasyon yöntemlerinin potansiyelini araştırıyor. Tam Gauss-Newton (GN) önkoşullandırması adı verilen bu yöntem, 150 milyona kadar parametreli transformer modellerinde test edildi.
Deneysel sonuçlar oldukça etkileyici: Tam GN güncellemeleri, mevcut en iyi optimizasyon algoritmalarına kıyasla 5,4 kat daha az iterasyonla aynı performansa ulaşmayı başardı. Bu, SOAP ve Muon gibi güçlü referans noktalarıyla karşılaştırıldığında elde edilen bir sonuç.
Araştırmanın önemli bulgularından biri, katman bazlı GN önkoşullandırıcısının da tam yöntemle neredeyse eşit performans göstermesi. Bu yaklaşım, katmanlar arası bilgiyi göz ardı ederek hesaplama karmaşıklığını azaltıyor ancak etkinliğini koruyor.
Bu gelişme, yapay zeka modellerinin eğitim maliyetlerini önemli ölçüde düşürebilir ve daha büyük modellerin geliştirilmesini kolaylaştırabilir. Araştırma, yüksek dereceli kayıp terimlerinin yakınsama için kritik olmayabileceğini de öne sürüyor.