Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin bilimsel keşif yapabilme potansiyelini ölçmek için ResearchBench adlı yenilikçi bir değerlendirme sistemi geliştirdi. Bu sistem, büyük dil modellerinin gerçekten bilimsel araştırmaya anlamlı katkı sağlayıp sağlayamayacağı sorusuna yanıt arıyor.
ResearchBench, bilimsel keşif sürecini üç kritik alt göreve ayırıyor: ilham kaynağı bulma, hipotez oluşturma ve hipotezleri değerlendirme. Araştırmacılar, bu üç aşamada başarılı olan bir sistemin genel bilimsel keşif görevini de başarıyla tamamlayabileceğini savunuyor.
Sistemin en dikkat çekici özelliği, veri kirliliğini önlemek için sadece 2024 yılından itibaren yayınlanan makaleleri kullanması. Bu yaklaşım, yapay zeka modellerinin daha önce gördüğü verilerle değil, gerçekten yeni bilgileri işleme kapasitesiyle test edilmesini sağlıyor.
12 farklı bilim dalından binlerce makaleyi analiz eden otomatik framework, araştırma soruları, literatür taramaları, ilham kaynakları ve hipotezler gibi kritik bileşenleri çıkarıyor. Uzmanların doğruladığı bu sistem, yapay zeka destekli bilimsel araştırmanın geleceği için önemli bir kilometre taşı niteliğinde.
Bu gelişme, yapay zekanın bilimsel araştırmadaki rolünü objektif olarak değerlendirme konusunda yeni bir standart oluşturuyor ve gelecekteki bilimsel keşiflerde yapay zeka araçlarının ne kadar güvenilir olduğunu anlamaya yardımcı oluyor.