Yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için tasarlanan mevcut benchmark'ların büyük bir eksikliği olduğu ortaya çıktı. Altı farklı benchmark'ın analizi, bu testlerin %55 ila %100'ünün sadece 2-5 adımlık basit zincirleme görevlerden oluştuğunu gösteriyor.
Bu soruna çözüm olarak geliştirilen 'The Amazing Agent Race' (AAR), AI ajanlarını çok daha karmaşık senaryolarla test ediyor. Sistem, dallanmalı ve birleşmeli araç zincirlerinden oluşan yönlendirilmiş asiklik graf (DAG) bulmacaları kullanıyor. 800 sıralı ve 600 kompozisyonel olmak üzere toplam 1400 farklı görev içeren benchmark, ajanların Wikipedia'da gezinmesini, çoklu adım araç zincirlerini yürütmesini ve sonuçları doğrulanabilir bir cevaba dönüştürmesini gerektiriyor.
Test sonuçları oldukça düşündürücü. En başarılı ajan çerçevesi bile sadece %37.2 doğruluk oranına ulaşabiliyor. Üç farklı metrik kullanılarak yapılan değerlendirme - bitiş çizgisi doğruluğu, ara nokta ziyaret oranı ve engel tamamlama oranı - navigasyon, araç kullanımı ve aritmetik başarısızlıklarını ayrı ayrı teşhis ediyor.
En dikkat çekici bulgu, navigasyon hatalarının denemeler arasında %27 ila %52 oranında baskın olması. Bu, AI ajanlarının araç kullanımında görece başarılı olmalarına rağmen, karmaşık bilgi ortamlarında yön bulmakta ciddi zorluklar yaşadığını gösteriyor.