Yapay zeka alanında kullanılan mevcut öğrenme algoritmaları arasında en popüler olanlardan biri olan Proximal Policy Optimization (PPO), ölçeklenebilirlik ve pratik dayanıklılığı sayesinde yaygın olarak tercih ediliyor. Ancak araştırmacılar, bu algoritmanın teorik temelleri ile pratik uygulaması arasında önemli bir kopukluk olduğunu tespit etti.
Bu sorunu çözmek için geliştirilen Bounded Ratio Reinforcement Learning (BRRL) framework'ü, pekiştirmeli öğrenme alanında yeni bir yaklaşım sunuyor. Sistem, düzenlenmiş ve kısıtlanmış bir politika optimizasyon problemi formüle ederek, bu problemin analitik çözümünü türetiyor.
BRRL'nin en dikkat çekici özelliği, monoton performans iyileştirmesi garantisi vermesi. Bu, yapay zeka sisteminin her öğrenme adımında performansının düşmeyeceği anlamına geliyor. Parametrik politika sınıfları için geliştirilen Bounded Policy Optimization (BPO) algoritması, politika ile BRRL'den elde edilen analitik optimal çözüm arasındaki avantaj-ağırlıklı farklılığı minimize ediyor.
Araştırmacılar ayrıca, ortaya çıkan politikanın beklenen performansı için alt sınır da belirleyerek, sistemin güvenilirliğini artırıyor. Bu gelişme, otonom araçlardan robotik uygulamalara kadar pek çok alanda daha güvenli ve etkili yapay zeka sistemlerinin geliştirilmesine katkı sağlayabilir.