Yapay Zeka Robotları Yeni Durumları Önceden Tahmin Ederek Öğreniyor

Araştırmacılar, robotların davranış taklidi yoluyla öğrenmesini geliştiren yeni bir yöntem geliştirdi. Geleneksel hedef-odaklı davranış klonlama yöntemleri, eğitim sırasında gördükleri görevlerde başarılı olsa da, yeni durum-hedef kombinasyonlarına genelleme yapamıyor. Yeni yaklaşım, zamana dayalı tutarlılığı artırarak robotların daha önce karşılaşmadıkları durumları da başarıyla çözebilmesini sağlıyor. BYOL-γ adı verilen bu teknik, kendini tahmin eden temsiller kullanarak successor representation yaklaşımını taklit ediyor ve kombinatoryal genelleme kapasitesini önemli ölçüde artırıyor.

Stanford ve diğer kurumlardan araştırmacılar, yapay zeka sistemlerinin davranış taklidi yoluyla öğrenmesini geliştiren yenilikçi bir yaklaşım sundu. Çalışma, robotların yeni ve karmaşık görevlere adaptasyonunda kritik bir sorunu çözmeyi hedefliyor.

Hedef-odaklı davranış klonlama (GCBC) yöntemleri, eğitim verilerinde yer alan görevlerde yüksek performans gösterse de, daha önce görülmemiş durum-hedef çiftlerine sıfır-atış genelleme yapamıyor. Bu sınırlılığın temel nedeni, davranış klonlama sürecinde öğrenilen durum temsillerindeki zamansal tutarlılık eksikliği olarak belirlendi.

Araştırmacılar, zamansal olarak ilişkili durumların benzer gizli temsillere kodlanması durumunda, yeni durum-hedef çiftleri için dağılım dışı boşluğun azalacağını gösterdi. Bu kavramı formalize ederek, successor representation (SR) aracılığıyla uzun menzilli zamansal tutarlılığın nasıl genellemeyi kolaylaştırabileceğini teorik olarak kanıtladı.

Geliştirilen BYOL-γ yöntemi, sonlu Markov Karar Süreci durumunda successor representation'ı kendini tahmin eden temsiller aracılığıyla yaklaştırıyor. Bu basit ama etkili temsil öğrenme hedefi, kombinatoryal genelleme kapasitesini önemli ölçüde artırarak robotik uygulamalarda yeni olanaklar sunuyor.