Yapay zeka ajanlarının bilimsel araştırmalarda kullanım potansiyeli giderek artsa da, gerçek performanslarını ölçecek uygun test sistemlerinin eksikliği bu teknolojinin yaygın benimsenmesinini engelliyor. Bu soruna çözüm bulmak amacıyla araştırmacılar, COMPOSITE-STEM adlı kapsamlı bir değerlendirme sistemi geliştirdi.
Doktora seviyesindeki bilim insanları tarafından hazırlanan bu test sistemi, fizik, biyoloji, kimya ve matematik alanlarından 70 uzman düzeyinde görev içeriyor. Klasik çoktan seçmeli testlerden farklı olarak, COMPOSITE-STEM hem kesin doğru yanıtları değerlendiren hem de bilimsel anlamlılığı ölçen esnek bir puanlama sistemi kullanıyor.
Araştırmacılar, Harbor aracılık değerlendirme çerçevesi içinde çok modlu Terminus-2 ajan sistemini kullanarak dört önde gelen yapay zeka modelini test etti. Sonuçlar oldukça dikkat çekici: en başarılı model bile sadece %21 doğruluk oranına ulaşabildi.
Bu düşük başarı oranı, mevcut yapay zeka teknolojilerinin henüz bilimsel keşiflerde etkili olamayacağını gösteriyor. Uzmanlar, yapay zeka ajanlarının gerçek bilimsel çalışma akışlarına entegre edilmeden önce önemli iyileştirmelere ihtiyaç duyduğunu belirtiyor.