Yapay zeka ajanlarının gelişimi, basit komutları yerine getirmekten ziyade karmaşık, gerçek dünya üretkenlik görevlerini tamamlamaya doğru evriliyor. Ancak mevcut araç kullanımı test sistemleri, yapay sorgular, sahte araçlar ve sınırlı sistem koordinasyonu kullanarak gerçek dünya ihtiyaçlarından uzak kalıyordu.

Bu sorunu çözmek için geliştirilen GTA-2, Genel Araç Ajanları için hiyerarşik bir benchmark sistemi sunuyor. Sistem, atomik araç kullanımından açık uçlu iş akışlarına kadar geniş bir spektrumu kapsıyor ve gerçek dünya otantikliği üzerine kurulu.

GTA-2'nin iki ana bileşeni bulunuyor: GTA-Atomic, kısa vadeli ve kapalı uçlu araç kullanımı hassasiyetini değerlendirirken, GTA-Workflow uzun vadeli ve açık uçlu görevlerde gerçekçi uçtan uca tamamlamayı test ediyor.

Sistemin en önemli yeniliği, açık uçlu çıktıları değerlendirmek için önerilen recursive checkpoint tabanlı değerlendirme mekanizması. Bu yaklaşım, büyük hedefleri doğrulanabilir alt hedeflere bölerek unified bir değerlendirme sağlıyor.

Bu gelişme, AI ajanlarının gerçek dünya uygulamalarında daha etkili olması için önemli bir adım teşkil ediyor ve gelecekteki genel amaçlı ajan geliştirme çalışmalarına yön verecek nitelikte.