Robotlar Artık Video İzleyerek Karmaşık Görevleri Planlayabilecek

Araştırmacılar, robotların gerçek dünya görevlerini daha iyi planlayabilmesi için yenilikçi bir sistem geliştirdi. UniDomain adlı bu framework, 12.393 robot manipülasyon videosundan öğrenerek, robotların daha önce görmediği karmaşık görevleri bile çözebilmesini sağlıyor. Sistem, binlerce video analizinden elde ettiği bilgileri birleştirerek, robotlara görev planlama konusunda rehberlik eden kapsamlı bir 'bilgi bankası' oluşturuyor. Bu yaklaşım, mevcut yapay zeka modellerinin uzun vadeli planlama ve semboli ç düşünme konularındaki eksiklerini gidererek, robotik alanında önemli bir ilerleme sunuyor.

Robotların gerçek dünya ortamlarında karmaşık görevleri planlaması, hem dil hem de görsel bilgiyi işleyerek gizli kısıtlamaları anlayabilmeyi gerektiriyor. Mevcut büyük dil modelleri ve görsel modeller güçlü temel yeteneklere sahip olsa da, uzun vadeli yapısal düşünme ve sembolik temsil konularında yetersiz kalıyorlar.

Araştırmacılar bu sorunu çözmek için UniDomain adlı yenilikçi bir framework geliştirdi. Bu sistem, robot manipülasyon gösterilerinden PDDL (Planning Domain Definition Language) alanını önceden eğiterek, çevrimiçi robotik görev planlaması için kullanıyor.

UniDomain, 12.393 manipülasyon videosundan atomik alanlar çıkararak, 3.137 operatör, 2.875 yüklem ve 16.481 nedensel bağlantı içeren birleşik bir alan oluşturuyor. Hedef görev sınıfı verildiğinde, birleşik alandan ilgili atomikleri alarak bunları sistematik olarak yüksek kaliteli meta-alanlara dönüştürüyor.

Bu yaklaşım, planlama sürecinde kompozisyonel genellemeyi destekliyor. Çeşitli gerçek dünya görevlerinde yapılan deneyler, UniDomain'in daha önce görmediği karmaşık görevleri başarıyla çözebildiğini gösteriyor. Bu gelişme, robotik görev planlamasında önemli bir adım olarak değerlendiriliyor.