Görme-Dil-Eylem modelleri (VLA), robotik uygulamalarda ardışık karar verme süreçlerinde dikkat çekici başarılar elde ediyor. Ancak bu sistemler, nesne pozisyonundaki küçük değişiklikler gibi çevresel kaymalara karşı beklenmedik bir kırılganlık gösteriyor.
Araştırmacılar bu problemi 'yörünge aşırı öğrenme' kavramıyla açıklıyor. Bu durumda VLA modelleri, eylemler ve çevresel unsurlar arasındaki yanıltıcı korelasyonlara aşırı odaklanıyor ve öğrenme sürecinde ezberledikleri eylem kalıplarını körü körüne tekrarlama eğilimi gösteriyor.
Bu soruna çözüm olarak geliştirilen Perturbation learning with Delayed Feedback (PDF) yöntemi, temel modelde herhangi bir ince ayarlama yapmadan test sırasında adaptasyon imkanı sunuyor. PDF sistemi, belirsizlik temelli veri zenginleştirme ve eylem oylama tekniklerini kullanarak sahte korelasyonları minimize ediyor.
Sistemin dikkat çeken özelliklerinden biri adaptif zamanlayıcı mekanizması. Bu bileşen, performans ve hesaplama verimliliği arasında denge kurarak zenginleştirme bütçelerini akıllıca dağıtıyor. Ayrıca hafif bir pertürbasyon modülü, gecikmeli geri bildirim rehberliğinde eylem olasılıklarını geriye dönük olarak düzenleyerek aşırı güven problemini düzeltiyor.
LIBERO test ortamında yapılan deneyler, PDF yönteminin robot karar verme performansında önemli iyileştirmeler sağladığını gösteriyor.