Yapay Zeka Ajanları Bilimsel Keşiflerde Henüz Yetersiz: Yeni Test Sonuçları

Bilim insanları, yapay zeka ajanlarının gerçek bilimsel araştırmalarda ne kadar etkili olduğunu ölçmek için yeni bir değerlendirme sistemi geliştirdi. COMPOSITE-STEM adlı bu test, fizik, biyoloji, kimya ve matematik alanlarında doktora seviyesinde 70 zorlu görev içeriyor. En gelişmiş yapay zeka modellerinin bile sadece %21 başarı göstermesi, bu teknolojilerin henüz bilimsel keşiflerde sınırlı kaldığını ortaya koyuyor. Araştırma, yapay zeka ajanlarının bilimsel çalışmalarda kullanılmadan önce önemli gelişmelere ihtiyaç duyduğunu gösteriyor.

Yapay zeka ajanlarının bilimsel araştırmalarda kullanım potansiyeli giderek artsa da, gerçek performanslarını ölçecek uygun test sistemlerinin eksikliği bu teknolojinin yaygın benimsenmesinini engelliyor. Bu soruna çözüm bulmak amacıyla araştırmacılar, COMPOSITE-STEM adlı kapsamlı bir değerlendirme sistemi geliştirdi.

Doktora seviyesindeki bilim insanları tarafından hazırlanan bu test sistemi, fizik, biyoloji, kimya ve matematik alanlarından 70 uzman düzeyinde görev içeriyor. Klasik çoktan seçmeli testlerden farklı olarak, COMPOSITE-STEM hem kesin doğru yanıtları değerlendiren hem de bilimsel anlamlılığı ölçen esnek bir puanlama sistemi kullanıyor.

Araştırmacılar, Harbor aracılık değerlendirme çerçevesi içinde çok modlu Terminus-2 ajan sistemini kullanarak dört önde gelen yapay zeka modelini test etti. Sonuçlar oldukça dikkat çekici: en başarılı model bile sadece %21 doğruluk oranına ulaşabildi.

Bu düşük başarı oranı, mevcut yapay zeka teknolojilerinin henüz bilimsel keşiflerde etkili olamayacağını gösteriyor. Uzmanlar, yapay zeka ajanlarının gerçek bilimsel çalışma akışlarına entegre edilmeden önce önemli iyileştirmelere ihtiyaç duyduğunu belirtiyor.

Yapay Zeka Ajanları Bilimsel Keşiflerde Henüz Yetersiz: Yeni Test Sonuçları

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor