Büyük dil modellerinin (LLM) eğitiminde kullanılan pekiştirmeli öğrenme algoritmaları, son yıllarda bu sistemlerin muhakeme yeteneklerini önemli ölçüde geliştirdi. Ancak bu süreçteki optimizasyon dinamikleri hâlâ kırılgan bir yapıya sahip.

Araştırmacılar, mevcut GRPO gibi standart algoritmaların 'sert kırpma' yöntemiyle kararlılığı sağlamaya çalıştığını, ancak bu yaklaşımın güven bölgesi dışındaki token'ların gradyanlarını atarak keşfi engellediğini ortaya koydu. Alternatif olarak geliştirilen 'yumuşak kırpma' yöntemleri ise bu gradyanları geri kazanmaya çalışırken başka bir sorunla karşılaştı: log-olasılık gradyanlarına dayanmaları, olasılıklar sıfıra yaklaştığında ıraksayan ağırlıklar üretmesine neden oluyor.

Bu soruna çözüm olarak geliştirilen Ayrıştırılmış Gradyan Politika Optimizasyonu (DGPO), log-olasılık yerine doğrudan olasılık gradyanlarını kullanarak daha istikrarlı bir yaklaşım sunuyor. Yöntem, önem örneklemesi oranlarına dayanan ayrıştırılmış bir bozunma mekanizması kullanıyor ve sınır token'larına asimetrik, sürekli bozunma uygulayarak optimizasyon sürecini iyileştiriyor.

Bu yenilik, yapay zeka modellerinin daha kararlı ve etkili bir şekilde eğitilmesini sağlarken, muhakeme yeteneklerinin geliştirilmesinde önemli bir ilerleme sunuyor.