Yapay zeka alanında büyük bir atılım gerçekleşti. Araştırmacılar, akıllı sistemlerin öğrenme sürecindeki uzun süreli sorunları çözmeye yönelik önemli bir keşif yaptı.
Mevcut yapay zeka modellerinin eğitiminde, özellikle seyrek ödül sistemlerinde grup içi karşılaştırmalar yaygın olarak kullanılıyor. Ancak bu yaklaşım, uzun süreli eğitim sürecinde ciddi problemlere yol açıyor. Modeller 'öğrenme vergisi' adı verilen verimsiz güncelleme birikimi, çözüm olasılığı kayması ve entropi çöküşü gibi sorunlarla karşılaşıyor.
Yeni araştırma, bu sorunların kökenini token düzeyindeki kredi atama perspektifinden inceliyor. Bilim insanları, ödülle ilgisiz sapmayı önlemek için grup içi hedeflerin token güncellemeleri arasında gradient değiştirilebilirliğini koruması gerektiğini keşfetti. Bu durum, zayıf kredili ve yüksek frekanslı tokenlarda gradient iptaline olanak sağlıyor.
Çalışmada, değiştirilebilirliği bozan iki yaygın mekanizmanın 'iptal etmeme' durumunu yapısal bir norm haline getirdiği gösterildi. Bu bulguya dayanarak, araştırmacılar paylaşılan token uzayında iptal yapısını geri kazandırmak veya yaklaştırmak için minimal grup içi dönüşümler öneriyor.
Deneysel sonuçlar, bu dönüşümlerin eğitimi stabilize ettiğini ve örnek verimliliğini artırdığını gösteriyor.