Yapay zeka dünyasında önemli bir adım atılırken, araştırmacılar AI ajanlarının öğrenme kalitesini artırmak için Argos (Agentic Reward for Grounded & Objective Scoring) adlı yenilikçi bir sistem geliştirdi.
Mevcut yapay zeka ajanları genellikle çok modlu pekiştirmeli öğrenme ile eğitiliyor ancak büyük bir eksiklikleri var: sadece nihai sonuçlara dayalı ödüllendirme alıyorlar. Bu durum, bir öğrencinin sadece sınav notunu görüp hangi sorularda neden hata yaptığını öğrenememesi gibi. Argos sistemi bu sorunu çözmek için tasarlandı.
Yeni sistem, her örnek için öğretmen model tabanlı ve kural temelli değerlendirme fonksiyonlarından oluşan bir havuzdan seçim yapıyor. Bu sayede hem nihai yanıtın doğruluğunu hem de mantıklı düşünme sürecinin uzamsal-zamansal konumlandırmasını değerlendirebiliyor.
Argos'un en önemli özelliği, farklı örnekler için farklı skorlama fonksiyonları kullanabilmesi. Bu yaklaşım, öğretmen modellerin gürültülü ödül sinyalleri verme sorununu da çözüyor. Sistem, özellikle görsel ve metinsel verileri birlikte işleyen karmaşık görevlerde AI ajanlarına daha ayrıntılı rehberlik sunarak öğrenme sürecini hızlandırıyor.