Robotik ve yapay zeka alanında önemli gelişmeler kaydedilirken, araştırmacılar robotların karar verme süreçlerini iyileştirmek için farklı yaklaşımlar test ediyor. Bu kapsamda Vision-Language-Action (VLA) modellerinde kullanılan Chain-of-Thought (CoT) yönteminin etkinliği detaylı bir incelemeye tabi tutuldu.
DeepThinkVLA adlı yeni araştırma, robotların görsel bilgileri işleyip dil anlayışıyla harmanladıktan sonra eylem planlaması yaptığı sistemlerde, adım adım mantıklı düşünce süreçlerinin her zaman faydalı olmadığını ortaya koyuyor. Mevcut CoT-VLA sistemlerinin sınırlı ve tutarsız kazanımlar sunması, araştırmacıları bu yaklaşımın ne zaman ve neden işe yaradığını sistematik olarak incelemeye yöneltti.
Kapsamlı deneyler sonucunda, CoT yönteminin VLA modellerinde etkili olabilmesi için iki temel koşulun birlikte sağlanması gerektiği belirlendi. İlk koşul 'Kod Çözme Uyumu' olarak adlandırılıyor ve CoT ile eylemlerin modaliteye uygun mekanizmalarla üretilmesi gerekliliğini vurguluyor. Her ikisini tek bir otoregresif kod çözücü aracılığıyla zorlamak, optimal olmamakla kalmayıp aktif olarak zararlı oluyor ve performansı %4.2 oranında düşürüyor.
İkinci koşul ise 'Nedensel Uyum' - CoT'nin sonuç tabanlı optimizasyon yoluyla görev başarısıyla nedensel olarak bağlantılı olması gerekiyor. Bu olmadığında, denetimli CoT dağılım kayması altında hiç mantık yürütmeden farksız hale geliyor ve %32 oranında bir performans düşüşü yaşanıyor.