Araştırmacılar, yapay zeka ajanlarının kendi davranışlarını değerlendirmesini sağlayan yeni bir sistem geliştirdi. 'Agent-as-a-Judge' adlı bu yaklaşım, geleneksel değerlendirme yöntemlerinin aksine çevreyle aktif etkileşim kurarak kanıt toplama yeteneğine sahip. Üç farklı alanda 155 görev üzerinde yapılan testlerde, bu sistem mevcut LLM tabanlı değerlendirici modellerin performansını geride bıraktı. Sistem, arama motorları, veri sistemleri ve grafik kullanıcı arayüzleri gibi karmaşık ortamlarda bilgi edinme, durum doğrulama ve süreç değerlendirme konularında başarılı sonuçlar verdi. Bu gelişme, yapay zeka sistemlerinin güvenilirliği ve özerk karar verme yetenekleri açısından önemli bir adım sayılıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka Ajanlarının Keşif ve Kullanma Hatalarını Ölçen Yeni Yöntem

Araştırmacılar, dil modeli tabanlı yapay zeka ajanlarının karar verme süreçlerindeki keşif ve kullanma hatalarını sistematik olarak ölçebilen yeni bir değerlendirme yöntemi geliştirdi. Çalışma, AI kodlama ve fiziksel yapay zeka gibi karmaşık görevlerde kullanılan ajanların, problem alanını keşfetme ve edinilen bilgiyi kullanma yeteneklerini analiz ediyor. Araştırma ekibi, gerçek dünya senaryolarından ilham alan kontrollü ortamlar tasarlayarak, ajanların iç politikalarına erişim olmadan sadece gözlemlenen eylemlerden keşif ve kullanma hatalarını ayırt edip ölçmeyi başardı. Bu yenilikçi yaklaşım, en gelişmiş dil modeli ajanlarının bile bu kritik alanlarda önemli zorluklarla karşılaştığını ortaya koyuyor.

arXiv (CS + AI) 0