Yapay zeka alanında yeni bir değerlendirme sistemi, büyük dil modellerinin problem tanıma yeteneklerini ölçmek için geliştirildi. KWBench (Bilgi İşi Tezgahı) adlı bu sistem, yapay zekanın profesyonel senaryolarda sorunları kendi başına fark edip tanımlayabilme kapasitesini test ediyor.
Mevcut yapay zeka değerlendirme sistemlerinin çoğu, modellere açık talimatlar verilerek belirli görevlerin tamamlanmasını ölçüyor. Ancak KWBench, bunun bir adım öncesine odaklanıyor: yapay zekanın durumun temel yapısını ham verilerden çıkarabilme yetisi. Bu, gerçek iş hayatında çok daha değerli bir beceri.
Sistem, altı farklı profesyonel alandan toplam 223 görev içeriyor. Bu alanlar arasında şirket satın almaları, sözleşme müzakereleri, klinik eczacılık, örgütsel politikalar, dolandırıcılık analizi ve teşvik tasarımı yer alıyor. Her görev, oyun teorisinin temel prensiplerine dayandırılmış ve uzman değerlendirmelerini içeriyor.
Araştırmacılar, her senaryoyu altı farklı oyun teorisi kalıbına göre sınıflandırıyor: asil-vekil çatışması, sinyal verme, mekanizma tasarım hatası, stratejik ihmal, koalisyon dinamikleri ve stratejik karşılıklı bağımlılık. Bu sistematik yaklaşım, yapay zekanın farklı problem türlerindeki performansını karşılaştırma imkanı sunuyor.
Bu gelişme, yapay zeka modellerinin problem çözme yeteneklerini değerlendirmede yeni standartlar oluşturabilir ve gelecekteki AI sistemlerinin tasarımında önemli katkılar sağlayabilir.