AI Ajanları Araç Kullanmada Başarılı, Navigasyonda Zayıf

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, yapay zeka ajanlarının karmaşık görevlerdeki performansını ölçmek için yeni bir benchmark geliştirdi. 'The Amazing Agent Race' adlı bu test, mevcut değerlendirme sistemlerinin çoğunlukla basit, doğrusal görevlerden oluştuğunu ortaya koyuyor. Yeni benchmark, Wikipedia üzerinde gezinme, çoklu araç kullanımı ve sonuçları birleştirme gerektiren 1400 farklı görev içeriyor. Test sonuçları, en başarılı AI ajanının bile sadece %37.2 doğruluk oranına ulaşabildiğini gösteriyor. Özellikle navigasyon hatalarının dominant olduğu (%27-52 arası başarısızlık) bu çalışma, AI ajanlarının araç kullanımında güçlü olmasına rağmen karmaşık ortamlarda yön bulmakta zorlandığını kanıtlıyor.

Yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için tasarlanan mevcut benchmark'ların büyük bir eksikliği olduğu ortaya çıktı. Altı farklı benchmark'ın analizi, bu testlerin %55 ila %100'ünün sadece 2-5 adımlık basit zincirleme görevlerden oluştuğunu gösteriyor.

Bu soruna çözüm olarak geliştirilen 'The Amazing Agent Race' (AAR), AI ajanlarını çok daha karmaşık senaryolarla test ediyor. Sistem, dallanmalı ve birleşmeli araç zincirlerinden oluşan yönlendirilmiş asiklik graf (DAG) bulmacaları kullanıyor. 800 sıralı ve 600 kompozisyonel olmak üzere toplam 1400 farklı görev içeren benchmark, ajanların Wikipedia'da gezinmesini, çoklu adım araç zincirlerini yürütmesini ve sonuçları doğrulanabilir bir cevaba dönüştürmesini gerektiriyor.

Test sonuçları oldukça düşündürücü. En başarılı ajan çerçevesi bile sadece %37.2 doğruluk oranına ulaşabiliyor. Üç farklı metrik kullanılarak yapılan değerlendirme - bitiş çizgisi doğruluğu, ara nokta ziyaret oranı ve engel tamamlama oranı - navigasyon, araç kullanımı ve aritmetik başarısızlıklarını ayrı ayrı teşhis ediyor.

En dikkat çekici bulgu, navigasyon hatalarının denemeler arasında %27 ila %52 oranında baskın olması. Bu, AI ajanlarının araç kullanımında görece başarılı olmalarına rağmen, karmaşık bilgi ortamlarında yön bulmakta ciddi zorluklar yaşadığını gösteriyor.

Etiketler

#yapay zeka #AI ajanları #benchmark #navigasyon #araç kullanımı

Özgün Kaynak

The Amazing Agent Race: Strong Tool Users, Weak Navigators

https://arxiv.org/abs/2604.10261

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.

Her sabah seçki, Telegram'da

Günün en önemli bilim haberleri kanalda.

Kanala Katıl

İlgili Haberler

Aynı kategoride okumaya değer

Hepsini gör →

Teknoloji & Yapay Zeka

1 gün önce

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Son 40 yılın başkanlık seçimlerini analiz eden araştırmacılar, Amerikan siyasetindeki büyük değişimin arkasında yaygın kanaatin aksine işçi sınıfının değil, varlıklı ve yüksek eğitimli beyaz seçmenlerin olduğunu ortaya koydu. Çalışma, bu grubun istikrarlı bir şekilde Demokrat Parti'ye yöneldiğini gösteriyor. Bulgular, siyasi yeniden yapılanmanın nedenlerine dair genel kabul görmüş görüşleri sorguluyor ve elit seçmenlerin siyasi tercihlerindeki değişimin rolünü ön plana çıkarıyor. Araştırma, demografik değişimlerin siyasi davranış üzerindeki etkilerini anlamak için önemli veriler sunuyor.

PsyPost Oku

Teknoloji & Yapay Zeka

1 gün önce

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Dil ve dilbilim alanındaki iki yeni çalışma dikkat çekici sorulara yanıt arıyor. Almeida'nın Humanities and Social Sciences Communications'da yayınlanan makalesi gülmenin doğasını felsefi ve bilimsel açıdan inceliyor. Diğer yandan Leivada ve ekibinin Philosophical Transactions of the Royal Society A'da yayınlanan araştırması, büyük dil modellerinin gerçekten insan dilini ve kelimelerin arkasındaki dünyayı anlayıp anlamadığını sorguluyor. Her iki çalışma da insan iletişiminin karmaşıklığını farklı perspektiflerden ele alıyor.

Language Log Oku

Teknoloji & Yapay Zeka

1 gün önce

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor

Yeni bir araştırma, bilimsel organizasyonların Wikipedia sayfalarının uzmanlar tarafından düzenli olarak güncellenmesinin halkın bu kurumlara duyduğu güveni önemli ölçüde artırdığını ortaya koydu. American Association for Anatomy'nin Wikipedia sayfası akademik bir uzman tarafından kapsamlı şekilde güncellendiğinde, okuyucular organizasyonu daha güvenilir olarak algıladı. Bu bulgu, bilim insanlarının platformu aktif olarak düzenleyerek doğru bilimsel bilgiye erişimi iyileştirmesi gerektiğini gösteriyor. Araştırma, Wikipedia'nın bilimsel kurumların halkla iletişiminde kritik rol oynadığını vurguluyor.

PsyPost Oku