Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin tıbbi tanı süreçlerindeki gerçek yetkinliklerini ölçmek için kapsamlı bir benchmark çalışması gerçekleştirdi. MedThinkVQA adı verilen bu veri seti, klinisyenlerin günlük pratikte karşılaştığı duruma daha yakın koşulları simüle ediyor.
Çalışma, önceki araştırmalardan farklı olarak her vaka için ortalama 6,62 görüntü kullanıyor. Bu sayı, mevcut benchmark çalışmalarının 1,43 görüntülük ortalamasından oldukça yüksek. Toplam 8.067 vaka içeren veri setinde, AI modellerin farklı açılardan çekilmiş görüntüleri analiz edip, bunları birleştirerek tanı koyması bekleniyor.
Test sonuçları, AI teknolojisinin mevcut sınırlarını net şekilde ortaya koydu. En başarılı kapalı kaynak modeller olan Claude-4.6-Opus %57,2, Gemini-3-Pro %55,3 ve GPT-5.2-xhigh %54,9 doğruluk oranına ulaştı. Daha küçük modellerin performansı ise belirgin şekilde düştü: GPT-5-mini %39,7, GPT-5-nano ise sadece %30,8 başarı gösterdi.
Açık kaynak modeller arasında en iyi sonucu Qwen3.5-397B-A17B %52,2 ile alırken, Qwen3.5-27B %50,6 doğruluk oranıyla takip etti. Bu bulgular, AI'nın tıp alanındaki uygulamaları için daha fazla gelişime ihtiyaç olduğunu gösteriyor.