Yapay zeka alanında önemli bir gelişme kaydedildi. Araştırmacılar, dil modellerinin karmaşık problemleri çözerken birden fazla deneme yaparak hatalarından öğrenmesini sağlayan yenilikçi bir yöntem geliştirdi.
'Calibrated Attempt-Level GRPO' olarak adlandırılan bu teknik, modelin bir problemi K kez deneme şansı olduğu bir sistem üzerine kuruluyor. Her başarısız denemeden sonra model, sert bir doğrulayıcıdan geri bildirim alıyor ve bir sonraki girişimini bu bilgilere dayanarak şekillendiriyor.
Geleneksel yaklaşımlardan farklı olarak, bu sistem her denemeyi basitçe başarılı veya başarısız olarak değerlendirmek yerine, her girişimin ağırlığını dikkatli bir şekilde hesaplıyor. Araştırmacılar, naif ağırlıklandırma yöntemlerinin önyargılı gradyanlar ürettiğini keşfederek, bu sorunu çözen özel bir strateji geliştirdi.
Yeni yöntem, önyargısız gradyanlar elde ederken varyansı düşük tutmayı başarıyor. Bu, modelin her deneme seviyesindeki ödülleri daha etkin bir şekilde kullanmasını ve genel 'Verification@K' performansını artırmasını sağlıyor.
Bu gelişme, yapay zekanın problem çözme yaklaşımında önemli bir değişimi temsil ediyor. İnsan benzeri bir öğrenme süreci benimseyen sistem, özellikle adım adım düşünme gerektiren karmaşık görevlerde umut verici sonuçlar gösteriyor.