Yapay zeka sistemlerinin öğrenme süreçlerinde kullanılan ödül modellerinde yaşanan temel bir sorun, yeni bir yaklaşımla çözüme kavuşturuldu. Araştırmacılar, AI'nin mantıksal çıkarım adımlarını değerlendiren sistemlerdeki tutarsızlık problemini ele alan yenilikçi bir yöntem geliştirdi.
Süreç ödül modelleri (PRM), yapay zekanın mantıklı çıkarım yapma sürecinin her aşamasında detaylı geri bildirim sağlıyor. Ancak güvenilir PRM'ler oluşturmak, her adım için ayrı etiketleme veya ağır doğrulama süreçleri gerektirdiği için maliyetli ve zaman alıcı. Örtük PRM'ler bu sorunu, sadece nihai sonuç etiketlerinden hareketle token veya adım düzeyinde ödüller öğrenerek çözmeye çalışıyor.
Fakat bu yaklaşımda kritik bir uyumsuzluk var: eğitim aşamasında sadece genel sonuç kontrol edilirken, kullanım sırasında her tokenin kalitesi ayrı ayrı değerlendirilmek zorunda. Bu durum, hangi mantık adımlarının gerçekten doğru olduğunun net belirlenememesine yol açıyor.
Yeni geliştirilen 'Örtük Önek-Değer Ödül Modeli', bu eğitim-kullanım uyumsuzluğunu gidererek daha tutarlı değerlendirmeler yapabiliyor. Bu gelişme, AI sistemlerinin karmaşık problemleri çözerken daha güvenilir kararlar almasını sağlayacak.