Teknoloji & Yapay Zeka

Yapay Zeka Bilimsel Kanıtları Doğrulamada Zorlanıyor: Yeni Araştırma Şaşırtıyor

Araştırmacılar, yapay zeka modellerinin bilimsel iddiaları kanıtlarla karşılaştırma becerisini test etmek için 469 bin örnek içeren kapsamlı bir veri seti oluşturdu. M2-Verify adlı bu çalışma, PubMed ve arXiv'den toplanan verilerle 16 farklı bilim alanını kapsıyor. Sonuçlar oldukça çarpıcı: En gelişmiş AI modelleri bile basit tıbbi durumlarda %85,8 başarı gösterirken, karmaşık anatomik değişikliklerde bu oran %61,6'ya düşüyor. Daha da önemlisi, modeller bilimsel açıklamalar yaparken halüsinasyonlar üretiyor ve tutarsız sonuçlar veriyor. Bu bulgular, bilimsel araştırmalarda AI kullanımının henüz tam güvenilir olmadığını gösteriyor ve gelecekteki geliştirmeler için önemli bir yol haritası sunuyor.

Yapay zeka teknolojilerinin bilimsel araştırmalardaki rolü giderek artarken, bu sistemlerin güvenilirliği konusunda önemli sorular ortaya çıkıyor. Yeni bir araştırma, mevcut AI modellerinin bilimsel iddiaları destekleyici kanıtlarla tutarlı şekilde değerlendirmede ciddi zorluklarla karşılaştığını ortaya koyuyor.

Araştırmacılar, bu sorunu detaylı incelemek için M2-Verify adlı kapsamlı bir veri seti geliştirdi. PubMed ve arXiv gibi prestijli bilimsel kaynaklardan toplanan bu veri seti, 16 farklı bilim alanından 469 binden fazla örnek içeriyor ve uzman denetimlerinden geçirilmiş durumda.

Test sonuçları oldukça düşündürücü. En gelişmiş AI modelleri, düşük karmaşıklıktaki tıbbi örneklerde %85,8 oranında başarı gösterirken, anatomik değişiklikler gibi yüksek karmaşıklıktaki durumlarda bu oran %61,6'ya kadar düşüyor. Bu dramatik performans kaybı, AI sistemlerinin karmaşık bilimsel içerikleri işlemede yaşadığı zorlukları gözler önüne seriyor.

Daha da önemlisi, uzman değerlendirmeleri AI modellerinin bilimsel açıklamalar yaparken halüsinasyonlar ürettiğini ve gerçek verilerle örtüşmeyen sonuçlar çıkardığını gösteriyor. Bu durum, bilimsel araştırmalarda AI kullanımının henüz tam güvenilir olmadığını işaret ediyor.

Özgün Kaynak
arXiv (CS + AI)
M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.