Yapay zeka alanında büyük dil modellerinin (LLM) ve görsel-dil modellerinin eğitimi için yeni bir yaklaşım geliştirildi. Araştırmacılar, pekiştirmeli öğrenme sürecinde karşılaşılan veri verimsizliği sorununa çözüm getiren 'Tazelik Farkında Öncelikli Deneyim Tekrarı' yöntemini önerdi.
Mevcut yöntemler olan PPO, GRPO ve REINFORCE++ gibi algoritmalar, tek bir güncelleme sonrasında toplanan tüm deneyim verilerini atıyor. Bu durum özellikle çok turlu çevre etkileşimi gerektiren ajansal görevlerde büyük kaynak israfına neden oluyor. Geleneksel pekiştirmeli öğrenmede başarılı olan Öncelikli Deneyim Tekrarı (PER) yöntemi, büyük dil modellerine doğrudan uygulandığında başarısız oluyor.
Sorunun temel nedeni, milyarlarca parametreli modellerin hızlı politika evriminin, depolanan öncelikleri güncel olmaktan çıkarması. Eski yüksek öncelikli deneyimler, artık bilgi verici olmadıkları halde örnekleme sürecine hakim olmaya devam ediyor.
Yeni geliştirilen Tazelik Farkında PER yöntemi, bu öncelik eskimesi sorununu çözerek geçmiş deneyimlerin daha akıllı şekilde yeniden kullanılmasını sağlıyor. Bu yaklaşım, özellikle pahalı çok turlu etkileşimler gerektiren görevlerde önemli verimlilik kazanımları sunuyor ve yapay zeka modellerinin eğitim süreçlerini optimize ediyor.