Yapay zeka alanında yeni bir dönüm noktası: Büyük dil modeli ajanlarının karmaşık görevlerde daha iyi performans göstermesi için geliştirilen Critical Step Optimization (CSO) yöntemi, geleneksel yaklaşımları alt üst ediyor.
Mevcut eğitim yöntemlerinin temel sorunları var: Sadece sonuca dayalı ödüllendirme sistemleri, ara adımların katkısını doğru değerlendiremiyor. Adım seviyesinde tahmin edilen ödüller sistematik gürültü oluşturuyor. Monte Carlo örnekleme yaklaşımları ise hesaplama açısından çok maliyetli.
CSO yöntemi bu sorunlara farklı bir çözüm getiriyor. Uzmanların başarılı örneklerinden öğrenmek yerine, sistemin başarısız deneyimlerinden yola çıkıyor. Bu yaklaşım, modelin zayıf noktalarını doğrudan hedefliyor ve hangi karar noktalarının görevin başarısızlıktan başarıya dönmesine neden olduğunu tespit ediyor.
Sistem, process reward model (PRM) kullanarak kritik adımları belirliyor ve uzman modeller aracılığıyla doğrulama yapıyor. Bu sayede öğrenme sürecini yalnızca gerçekten önemli karar noktalarına odaklıyor.
Araştırmanın arkasındaki temel bulgu şu: Akıl yürütme süreçlerinde etkili öğrenmeyi sağlayan, yüksek entropi değerine sahip token'ların sadece küçük bir kısmı olduğu. Bu keşif, eğitim sürecinin hangi noktalara odaklanması gerektiğini gösteriyor.