Yapay zeka teknolojilerinin bilimsel araştırmalardaki rolü giderek artarken, bu sistemlerin güvenilirliği konusunda önemli sorular ortaya çıkıyor. Yeni bir araştırma, mevcut AI modellerinin bilimsel iddiaları destekleyici kanıtlarla tutarlı şekilde değerlendirmede ciddi zorluklarla karşılaştığını ortaya koyuyor.
Araştırmacılar, bu sorunu detaylı incelemek için M2-Verify adlı kapsamlı bir veri seti geliştirdi. PubMed ve arXiv gibi prestijli bilimsel kaynaklardan toplanan bu veri seti, 16 farklı bilim alanından 469 binden fazla örnek içeriyor ve uzman denetimlerinden geçirilmiş durumda.
Test sonuçları oldukça düşündürücü. En gelişmiş AI modelleri, düşük karmaşıklıktaki tıbbi örneklerde %85,8 oranında başarı gösterirken, anatomik değişiklikler gibi yüksek karmaşıklıktaki durumlarda bu oran %61,6'ya kadar düşüyor. Bu dramatik performans kaybı, AI sistemlerinin karmaşık bilimsel içerikleri işlemede yaşadığı zorlukları gözler önüne seriyor.
Daha da önemlisi, uzman değerlendirmeleri AI modellerinin bilimsel açıklamalar yaparken halüsinasyonlar ürettiğini ve gerçek verilerle örtüşmeyen sonuçlar çıkardığını gösteriyor. Bu durum, bilimsel araştırmalarda AI kullanımının henüz tam güvenilir olmadığını işaret ediyor.