Robotların gerçek dünya ortamlarında karmaşık görevleri planlaması, hem dil hem de görsel bilgiyi işleyerek gizli kısıtlamaları anlayabilmeyi gerektiriyor. Mevcut büyük dil modelleri ve görsel modeller güçlü temel yeteneklere sahip olsa da, uzun vadeli yapısal düşünme ve sembolik temsil konularında yetersiz kalıyorlar.
Araştırmacılar bu sorunu çözmek için UniDomain adlı yenilikçi bir framework geliştirdi. Bu sistem, robot manipülasyon gösterilerinden PDDL (Planning Domain Definition Language) alanını önceden eğiterek, çevrimiçi robotik görev planlaması için kullanıyor.
UniDomain, 12.393 manipülasyon videosundan atomik alanlar çıkararak, 3.137 operatör, 2.875 yüklem ve 16.481 nedensel bağlantı içeren birleşik bir alan oluşturuyor. Hedef görev sınıfı verildiğinde, birleşik alandan ilgili atomikleri alarak bunları sistematik olarak yüksek kaliteli meta-alanlara dönüştürüyor.
Bu yaklaşım, planlama sürecinde kompozisyonel genellemeyi destekliyor. Çeşitli gerçek dünya görevlerinde yapılan deneyler, UniDomain'in daha önce görmediği karmaşık görevleri başarıyla çözebildiğini gösteriyor. Bu gelişme, robotik görev planlamasında önemli bir adım olarak değerlendiriliyor.