Yapay zeka ajanları için yeni ödüllendirme sistemi: Argos

Araştırmacılar, yapay zeka ajanlarının öğrenme sürecini iyileştirmek için Argos adlı yeni bir ödüllendirme sistemi geliştirdi. Geleneksel yöntemler sadece nihai sonuçları değerlendirirken, Argos hem doğruluğu hem de mantıklı düşünme sürecini takip ediyor. Sistem, farklı örnekler için farklı değerlendirme fonksiyonları seçerek daha detaylı geri bildirim sağlıyor. Bu yaklaşım, çok modlu pekiştirmeli öğrenme ile eğitilen AI ajanlarının performansını artırmayı hedefliyor. Argos, özellikle karmaşık görsel ve metin verilerini birlikte işleyen sistemlerde önemli iyileştirmeler vaat ediyor.

Yapay zeka dünyasında önemli bir adım atılırken, araştırmacılar AI ajanlarının öğrenme kalitesini artırmak için Argos (Agentic Reward for Grounded & Objective Scoring) adlı yenilikçi bir sistem geliştirdi.

Mevcut yapay zeka ajanları genellikle çok modlu pekiştirmeli öğrenme ile eğitiliyor ancak büyük bir eksiklikleri var: sadece nihai sonuçlara dayalı ödüllendirme alıyorlar. Bu durum, bir öğrencinin sadece sınav notunu görüp hangi sorularda neden hata yaptığını öğrenememesi gibi. Argos sistemi bu sorunu çözmek için tasarlandı.

Yeni sistem, her örnek için öğretmen model tabanlı ve kural temelli değerlendirme fonksiyonlarından oluşan bir havuzdan seçim yapıyor. Bu sayede hem nihai yanıtın doğruluğunu hem de mantıklı düşünme sürecinin uzamsal-zamansal konumlandırmasını değerlendirebiliyor.

Argos'un en önemli özelliği, farklı örnekler için farklı skorlama fonksiyonları kullanabilmesi. Bu yaklaşım, öğretmen modellerin gürültülü ödül sinyalleri verme sorununu da çözüyor. Sistem, özellikle görsel ve metinsel verileri birlikte işleyen karmaşık görevlerde AI ajanlarına daha ayrıntılı rehberlik sunarak öğrenme sürecini hızlandırıyor.