Yapay zeka modellerinin tahmin yeteneklerini değerlendirmek için kullanılan mevcut yöntemler, gerçek dünyanın karmaşık gereksinimlerini tam olarak yansıtmıyor. Araştırmacılar bu eksikliği gidermek amacıyla QuantSightBench adlı kapsamlı bir değerlendirme sistemi geliştirdi.
Geleneksel testler genellikle ikili seçenekli sorular veya çoktan seçmeli formatlarla sınırlı kalıyor. Ancak ekonomi, halk sağlığı ve sosyal demografi gibi alanlarda alınan kritik kararlar, sürekli nicel değerler üzerinden yapılan tahminlere dayanıyor. Bu durum, mevcut değerlendirme yöntemlerinin yetersiz kalmasına neden oluyor.
Yeni sistem, 'tahmin aralıkları' yaklaşımını kullanarak yapay zekanın belirsizlik durumlarında nasıl performans gösterdiğini ölçüyor. Bu yöntem, modellerin ölçek farkındalığı, farklı güven seviyelerinde içsel tutarlılık ve sürekli sonuçlar üzerinde kalibrasyon yeteneklerini test ediyor.
QuantSightBench, nokta tahminlerden ziyade belirsizliği açık ve test edilebilir hale getiren bir arayüz sunuyor. Bu yaklaşım, yapay zeka modellerinin gerçek dünya uygulamalarında ne kadar güvenilir olduğunu daha doğru bir şekilde değerlendirme imkanı sağlıyor.