Yapay Zeka Ajanları için Gerçek Dünya Testleri: GTA-2 Benchmark'ı Tanıtıldı

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için yeni bir test sistemi geliştirdi. GTA-2 adlı bu sistem, basit araç kullanımından karmaşık iş akışlarına kadar geniş bir yelpazede AI ajanlarını test ediyor. Mevcut test sistemlerinin yapay sorgular ve sahte araçlar kullanması sorununun üstesinden gelen bu yenilik, gerçek kullanıcı sorularını ve deployed araçları kullanıyor. Sistem, hem kısa vadeli kesin görevleri hem de uzun vadeli açık uçlu görevleri değerlendiriyor. Özellikle açık uçlu görevler için geliştirilen yeni değerlendirme mekanizması, büyük hedefleri doğrulanabilir alt hedeflere bölerek daha objektif ölçüm yapıyor.

Yapay zeka ajanlarının gelişimi, basit komutları yerine getirmekten ziyade karmaşık, gerçek dünya üretkenlik görevlerini tamamlamaya doğru evriliyor. Ancak mevcut araç kullanımı test sistemleri, yapay sorgular, sahte araçlar ve sınırlı sistem koordinasyonu kullanarak gerçek dünya ihtiyaçlarından uzak kalıyordu.

Bu sorunu çözmek için geliştirilen GTA-2, Genel Araç Ajanları için hiyerarşik bir benchmark sistemi sunuyor. Sistem, atomik araç kullanımından açık uçlu iş akışlarına kadar geniş bir spektrumu kapsıyor ve gerçek dünya otantikliği üzerine kurulu.

GTA-2'nin iki ana bileşeni bulunuyor: GTA-Atomic, kısa vadeli ve kapalı uçlu araç kullanımı hassasiyetini değerlendirirken, GTA-Workflow uzun vadeli ve açık uçlu görevlerde gerçekçi uçtan uca tamamlamayı test ediyor.

Sistemin en önemli yeniliği, açık uçlu çıktıları değerlendirmek için önerilen recursive checkpoint tabanlı değerlendirme mekanizması. Bu yaklaşım, büyük hedefleri doğrulanabilir alt hedeflere bölerek unified bir değerlendirme sağlıyor.

Bu gelişme, AI ajanlarının gerçek dünya uygulamalarında daha etkili olması için önemli bir adım teşkil ediyor ve gelecekteki genel amaçlı ajan geliştirme çalışmalarına yön verecek nitelikte.

Etiketler

#yapay zeka #benchmark #araç kullanımı #AI ajanları #değerlendirme sistemi

Özgün Kaynak

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

https://arxiv.org/abs/2604.15715

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.