Büyük dil modellerine dayalı yapay zeka ajanları, karmaşık görevlerde etkileyici başarılar gösterse de önemli bir eksiklikleri bulunuyordu: her durumda sıfırdan çözüm üretmek zorunda kalıyorlardı. Bu durum, daha önce karşılaştıkları benzer problemlerde bile yeniden düşünme sürecine girmelerine neden oluyordu.
Araştırmacılar, bu sorunu çözmek için Skill-Pro adlı yeni bir framework geliştirdi. Bu sistem, ajanların geçmiş etkileşimlerinden öğrenerek tekrar kullanılabilir prosedürel beceriler kazanmasını sağlıyor. Özellikle dikkat çekici olan nokta, sistemin parametrelerini güncellemeden sadece deneyim birikimi yoluyla öğrenmesi.
Skill-Pro'nun çalışma prensibi oldukça yaratıcı. Sistem, geçmiş deneyimleri pasif hikayeler olarak görmeyi bırakıp, bunları aktif olarak kullanılabilir becerilere dönüştürüyor. Her beceri, ne zaman aktif olacağı, nasıl çalışacağı ve ne zaman sonlanacağı konusunda net kurallara sahip.
Sistemin güvenilirliğini sağlamak için Non-Parametric PPO adlı özel bir yöntem kullanılıyor. Bu yaklaşım, semantik gradyanlar aracılığıyla yüksek kaliteli çözüm önerileri üretiyor ve PPO Gate ile bu becerilerin doğruluğunu kontrol ediyor.
Skill-Pro, deneyim havuzunu sürekli güncelleyerek en kaliteli becerileri korurken gereksiz olanları temizliyor. Bu sayede hem verimli hem de güvenilir bir öğrenme süreci gerçekleştiriyor.