Yapay zeka alanında derin arama ajanları, arama motorlarıyla bağımsız olarak çok turlu etkileşimler başlatarak güçlü soru-cevap yetenekleri sergiliyorlar. Bu sistemlerin başarısı, temel eğitim algoritması olan Grup Göreceli Politika Optimizasyonu'na (GRPO) dayanıyor.

Ancak araştırmacılar, GRPO'nun derin arama ortamlarında önemli zorluklarla karşılaştığını tespit ettiler. İlk sorun, ara adımların doğruluğu ile ödül sinyali arasındaki büyük uyumsuzluktan kaynaklanıyor. Final cevabı yanlış olduğunda, aslında doğru olan birçok ara adım haksız şekilde cezalandırılıyor.

İkinci kritik sorun ise eğitim kararsızlığı. Bu durum sıklıkla doğal dil yeteneklerinin bozulmasına, hatta felaket niteliğinde eğitim çöküşlerine yol açıyor. Araştırmacıların analizi, bu sorunların kaba taneli avantaj atamasi ve pozitif ile negatif avantajlar arasındaki dengesizlikten kaynaklandığını gösteriyor.

Bu problemleri çözmek için bilim insanları CalibAdv adlı yeni bir avantaj kalibrasyon yöntemi geliştirdiler. Bu yaklaşım, özellikle derin arama görevleri için tasarlanarak, yapay zeka ajanlarının daha kararlı ve etkili öğrenmesini sağlamayı hedefliyor.

Bu gelişme, arama tabanlı yapay zeka sistemlerinin daha güvenilir ve tutarlı performans sergilemesi açısından önemli bir adım teşkil ediyor.