Yapay zeka alanında önemli bir gelişme yaşanıyor. Büyük dil modellerinin karmaşık problemleri çözmek için araçları kullanarak çok turlu muhakeme yapma yetenekleri, yeni bir eğitim algoritması sayesinde önemli ölçüde iyileştiriliyor.
Grup Tur Politika Optimizasyonu (GTPO) adı verilen bu yeni yaklaşım, mevcut pekiştirmeli öğrenme yöntemlerinin temel sorununu çözüyor. Geleneksel sistemler tüm problem çözme sürecine tek bir puan veriyor, bu da modelin hangi adımda hata yaptığını anlamasını zorlaştırıyordu.
GTPO'nun üç temel yeniliği bulunuyor: Her tur için ayrı ödül sistemi sayesinde model, muhakeme sürecinin hangi aşamasında başarılı olduğunu net bir şekilde anlıyor. Normalize edilmiş iskontolu getiriler kullanarak avantaj hesaplaması yapılıyor. Ayrıca kendiliğinden denetimli ödül şekillendirme tekniği ile öğrenme süreci destekleniyor.
Bu gelişme özellikle matematik problemleri çözme, kod geliştirme ve bilimsel analiz gibi alanlarda yapay zeka asistanlarının performansını artıracak. Modeller artık bir problemi çözerken kod yazıp test edebilir, sonuçları değerlendirebilir ve gerektiğinde yaklaşımlarını revize edebilir.