Bilim insanları, yapay zekanın oyun ortamlarında uzun vadeli karar alma yeteneklerini geliştiren çığır açıcı bir araştırma gerçekleştirdi. Görsel-dil modellerinin (VLM) interaktif görevlerdeki potansiyelini keşfeden bu çalışma, geleneksel yaklaşımların ötesine geçiyor.

Araştırma ekibi, Super Mario Land oyununu test ortamı olarak kullanarak, yapay zekanın 100'den fazla hamle gerektiren karmaşık senaryolarda nasıl başarılı olabileceğini inceledi. Mevcut yöntemler genellikle 20-30 hamlelik kısa süreli etkileşimlerle sınırlıyken, bu yeni yaklaşım çok daha uzun soluklu stratejik düşünmeyi mümkün kılıyor.

Çalışmanın en dikkat çekici yönü, PPO (Proximal Policy Optimization) algoritmasının özel olarak uyarlanmış versiyonunun kullanılması. Hafif hamle düzeyinde bir eleştirmen modeli ile desteklenen bu sistem, GRPO ve Reinforce++ gibi eleştirmensiz yöntemlere kıyasla eğitim kararlılığını ve örnek verimliliğini önemli ölçüde artırıyor.

Araştırmacılar, önceden eğitilmiş görsel-dil modellerinin bu görevler için güçlü bir temel sağladığını da ortaya koydu. Bu bulgu, yapay zekanın görsel algı, mantık yürütme ve eylem koordinasyonunu eş zamanlı olarak gerçekleştirme kapasitesinin geliştirilmesinde önemli bir adım teşkil ediyor.