Stanford ve diğer kurumlardan araştırmacılar, yapay zeka sistemlerinin davranış taklidi yoluyla öğrenmesini geliştiren yenilikçi bir yaklaşım sundu. Çalışma, robotların yeni ve karmaşık görevlere adaptasyonunda kritik bir sorunu çözmeyi hedefliyor.
Hedef-odaklı davranış klonlama (GCBC) yöntemleri, eğitim verilerinde yer alan görevlerde yüksek performans gösterse de, daha önce görülmemiş durum-hedef çiftlerine sıfır-atış genelleme yapamıyor. Bu sınırlılığın temel nedeni, davranış klonlama sürecinde öğrenilen durum temsillerindeki zamansal tutarlılık eksikliği olarak belirlendi.
Araştırmacılar, zamansal olarak ilişkili durumların benzer gizli temsillere kodlanması durumunda, yeni durum-hedef çiftleri için dağılım dışı boşluğun azalacağını gösterdi. Bu kavramı formalize ederek, successor representation (SR) aracılığıyla uzun menzilli zamansal tutarlılığın nasıl genellemeyi kolaylaştırabileceğini teorik olarak kanıtladı.
Geliştirilen BYOL-γ yöntemi, sonlu Markov Karar Süreci durumunda successor representation'ı kendini tahmin eden temsiller aracılığıyla yaklaştırıyor. Bu basit ama etkili temsil öğrenme hedefi, kombinatoryal genelleme kapasitesini önemli ölçüde artırarak robotik uygulamalarda yeni olanaklar sunuyor.