Yapay zeka destekli robotik sistemlerde yeni bir dönem başlayabilir. Araştırmacılar, robotların karmaşık manipülasyon görevlerini daha etkili şekilde gerçekleştirmesini sağlayacak ST-π (Structured SpatioTemporal VLA) adlı yenilikçi bir model geliştirdi.
Mevcut vision-language-action (VLA) modelleri genel robotik görevlerde başarılı sonuçlar verse de, hassas zamansal ve uzamsal manipülasyon gerektiren durumlarda yetersiz kalıyor. Bu sistemler genellikle uzamsal ve zamansal bilgiyi görsel ve eylem temsillerine gömülü şekilde işliyor, ancak bu yaklaşım sıralı davranışları net sınırlarla ayırmakta zorlanıyor.
ST-π modeli bu sorunu iki temel yenilikle çözüyor. İlk olarak, Spatiotemporal VLM bileşeni 4D gözlemleri ve görev talimatlarını gizli uzaylara kodlayarak, büyük dil modeline besliyor. Bu sistem, alt görevler, uzamsal ve zamansal konumlandırma içeren nedensel sıralı eylem komutları üretiyor.
İkinci bileşen olan Spatiotemporal action expert ise, bu yapılandırılmış bilgileri somut robot eylemlerine dönüştürüyor. Bu yaklaşım, robotların görevleri daha sistematik şekilde parçalara ayırmasını ve her aşamayı uygun uzamsal-zamansal bağlamda değerlendirmesini sağlıyor.
Bu gelişme, robotların fabrika otomasyonundan ev işlerine kadar çok çeşitli alanlarda daha karmaşık görevleri başarıyla gerçekleştirmesinin yolunu açabilir.