Yapay zeka alanında önemli bir adım atılarak, büyük dil modellerinin akıl yürütme süreçlerini daha etkili şekilde değerlendiren yeni bir sistem geliştirildi. Process Reward Models (PRM) olarak adlandırılan bu yaklaşım, yapay zekanın düşünme zincirindeki her bir adımı ayrı ayrı analiz ederek hataları tespit edebiliyor.
Mevcut sistemlerde yaşanan en büyük sorunlardan biri, yapay zekanın doğru sonuca ulaşsa bile ara adımlarda mantık hataları yapabilmesiydi. Araştırmacılar bu soruna çözüm olarak, her düşünce adımını bağımsız olarak puanlayan bir değerlendirme modeli geliştirdi. Bu sayede sistemin hangi noktada hata yaptığı net şekilde görülebiliyor.
Çalışmanın en dikkat çekici yanı, veri seti oluşturma konusundaki yenilikçi yaklaşım. Geleneksel yöntemlerde veri setleri pahalı ve hata yapma eğiliminde olan manuel süreçlerle hazırlanıyordu. Yeni yöntemde ise Planning Domain Definition Language (PDDL) adı verilen planlama dili kullanılarak otomatik veri üretimi gerçekleştiriliyor.
Bu metodun uygulanmasıyla yaklaşık bir milyon akıl yürütme adımı içeren kapsamlı bir eğitim veri seti oluşturuldu. Deneysel sonuçlar, bu veri setiyle eğitilen modellerin hem matematiksel hem de matematiksel olmayan problemlerde önemli performans artışları sergilediğini gösteriyor.
Bu gelişme, yapay zekanın daha güvenilir ve tutarlı akıl yürütme yetenekleri kazanması yönünde kritik bir adım teşkil ediyor ve gelecekteki AI uygulamalarının kalitesini artıracak potansiyele sahip.