Yapay Zeka Modellerinin Tıbbi Görüntü Analiz Yeteneği Sınırlı Kaldı

Araştırmacılar, yapay zeka modellerinin gerçek klinik ortamlarda karşılaştıkları çoklu görüntü analizinde ne kadar başarılı olduklarını test etti. MedThinkVQA adlı yeni benchmark, her vakada ortalama 6,62 görüntü içeren 8.067 tıbbi durumu kapsıyor. Çalışmanın sonuçları, en gelişmiş AI modellerinin bile bu konuda zorlandığını ortaya koydu. En iyi performans gösteren Claude ve GPT modelleri %55-57 doğruluk oranına ulaşırken, açık kaynak modeller daha da geride kaldı. Bu bulgular, AI'nın tıp alanındaki uygulamalarında hâlâ önemli sınırları olduğunu gösteriyor.

Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin tıbbi tanı süreçlerindeki gerçek yetkinliklerini ölçmek için kapsamlı bir benchmark çalışması gerçekleştirdi. MedThinkVQA adı verilen bu veri seti, klinisyenlerin günlük pratikte karşılaştığı duruma daha yakın koşulları simüle ediyor.

Çalışma, önceki araştırmalardan farklı olarak her vaka için ortalama 6,62 görüntü kullanıyor. Bu sayı, mevcut benchmark çalışmalarının 1,43 görüntülük ortalamasından oldukça yüksek. Toplam 8.067 vaka içeren veri setinde, AI modellerin farklı açılardan çekilmiş görüntüleri analiz edip, bunları birleştirerek tanı koyması bekleniyor.

Test sonuçları, AI teknolojisinin mevcut sınırlarını net şekilde ortaya koydu. En başarılı kapalı kaynak modeller olan Claude-4.6-Opus %57,2, Gemini-3-Pro %55,3 ve GPT-5.2-xhigh %54,9 doğruluk oranına ulaştı. Daha küçük modellerin performansı ise belirgin şekilde düştü: GPT-5-mini %39,7, GPT-5-nano ise sadece %30,8 başarı gösterdi.

Açık kaynak modeller arasında en iyi sonucu Qwen3.5-397B-A17B %52,2 ile alırken, Qwen3.5-27B %50,6 doğruluk oranıyla takip etti. Bu bulgular, AI'nın tıp alanındaki uygulamaları için daha fazla gelişime ihtiyaç olduğunu gösteriyor.