Yapay zeka alanında robotların çevreyi anlayarak hareket etmesini sağlayan Visual-Language-Action (VLA) modelleri önemli bir paradigma değişimi yaratıyor. Ancak mevcut sistemler uzamsal algıda yetersizlik, çok modlu veri birleştirmede sorunlar ve pekiştirmeli öğrenmede kararsızlık gibi temel zorluklarla karşılaşıyor.
Araştırmacılar bu sorunlara çözüm olarak OmniVLA-RL adlı yenilikçi bir mimari geliştirdi. Sistem, Mix-of-Transformers (MoT) tasarımını kullanarak akıl yürütme, uzamsal algı ve eylem uzmanlarını sinerjik bir şekilde birleştiriyor. Bu yaklaşım, robotların farklı görev türlerinde daha etkili performans göstermesini sağlıyor.
Modelin en dikkat çekici özelliklerinden biri Flow-GSPO adlı yeni öğrenme metodolojisi. Bu sistem, akış eşleştirmesini Stokastik Diferansiyel Denklem süreci olarak yeniden formüle ederek, Grup Segmentli Politika Optimizasyonu ile birleştiriyor. Bu yaklaşım, eylem hassasiyetini artırırken eğitim sürecinin daha güvenilir olmasını sağlıyor.
LIBERO ve LIBERO-Plus benchmark testlerinde yapılan kapsamlı değerlendirmeler, OmniVLA-RL'nin mevcut en gelişmiş yöntemleri önemli ölçüde geride bıraktığını ortaya koyuyor. Bu başarı, mevcut VLA modellerinin temel sınırlarının aşılması açısından önemli bir adım olarak değerlendiriliyor.