Yapay zeka alanında büyük dil modellerinin eğitim öncesi dönemdeki ölçekleme yasaları geniş çapta araştırılmış olsa da, pekiştirmeli öğrenme ile yapılan eğitim sonrası davranışları büyük ölçüde gizemini korumuştu. Yeni bir araştırma bu boşluğu doldurmak için kapsamlı bir deneysel çalışma gerçekleştirdi.
Araştırmacılar, Qwen2.5 yoğun model serisinin tamamını kullanarak sistematik deneyler yaptı. 0.5 milyar parametreden 72 milyar parametreye kadar olan modeller üzerinde, özellikle matematiksel akıl yürütme yetenekleri odağında pekiştirmeli öğrenme davranışları incelendi.
Çalışmanın en dikkat çekici bulgusu, daha büyük modellerin tutarlı şekilde üstün öğrenme verimliliği sergilemesi oldu. Bu verimlilik hem hesaplama kaynakları hem de veri kullanımı açısından gözlemlendi. Araştırma ekibi, test kaybı, hesaplama gücü ve veri arasındaki ilişkinin matematiksel olarak öngörülebilir bir güç yasası ile modellenebileceğini keşfetti.
Bulgular, hem temel modeller hem de talimat ayarlamalı modeller arasında tutarlılık gösteriyor. Bu durum, farklı model türleri için genel geçer optimizasyon stratejileri geliştirilmesinin mümkün olabileceğine işaret ediyor. Araştırma, yapay zeka modellerinin geliştirilmesinde kaynak tahsisi ve performans optimizasyonu için yeni perspektifler sunuyor.