Yapay zeka alanında büyük dil modelleri, matematik problemleri ve kod yazma gibi konularda adım adım akıl yürütmede oldukça başarılı performans sergiliyor. Ancak bu modellerin gerçek dünya koşullarında uzun vadeli planlama yapabilme yetenekleri hâlâ yeterince test edilmiş değil.
Araştırmacılar bu sorunu çözmek için HeroBench adında yenilikçi bir değerlendirme sistemi oluşturdu. Bu sistem, rol yapma oyunlarından ilham alan karmaşık bir sanal dünyada AI modellerinin planlama becerilerini test ediyor. Mevcut planlama testleri genellikle soyut alanlar kullanıyor ya da etkileşimli geri bildirime dayanıyor, bu da gerçek planlama hatalarını gizleyebiliyor.
HeroBench'te AI modelleri oldukça zorlu görevlerle karşılaşıyor. Sayısal olarak uygun ekipmanları seçmek, çok katmanlı üretim süreçlerini ve kaynak bağımlılıklarını çözümlemek zorundalar. Ayrıca yüzlerce, hatta binlerce eylemi içeren kapsamlı planları tek seferde oluşturmaları gerekiyor.
Bu test sistemi sembolik planlama, sayısal savaş simülasyonu, uzamsal akıl yürütme ve kaynak yönetimi gibi farklı becerileri bir arada değerlendiriyor. Sistemin zorluk seviyesi ayarlanabilir ve yanıltıcı unsurlar içerebiliyor. Bu özellikler, AI modellerinin gerçek dünya problemlerindeki planlama kapasitelerini daha doğru bir şekilde ölçmek için tasarlandı.