Tıbbi alanda yapay zeka kullanımının hızla artmasıyla birlikte, bu sistemlerin gerçek hastane koşullarında ne kadar etkili olduğu merak konusu haline geldi. Araştırmacılar, mevcut test sistemlerinin gerçek klinik karmaşıklığı yansıtmadığını fark ederek MEDSYN adlı yeni bir değerlendirme platformu geliştirdi.
Bu platform, her vakada 7'ye kadar farklı görsel kanıt türü içeren son derece karmaşık klinik vakalar sunuyor. Sistem, gerçek doktor iş akışını taklit ederek yapay zekadan önce olası tanılar üretmesini, sonra da kesin tanı seçmesini istiyor. 18 farklı çok modlu yapay zeka modelinin test edildiği çalışmada ilginç sonuçlar elde edildi.
En başarılı modeller, olası tanı listesi oluştururken insan uzmanlarla yarışabilir hatta bazen onları geçebilir performans sergiledi. Ancak asıl sorun kesin tanı seçme aşamasında ortaya çıktı. Tüm yapay zeka modelleri, bu iki aşama arasında uzman doktorlara kıyasla çok daha büyük performans düşüşü yaşadı.
Araştırmacılar bu başarısızlığın iki temel nedeni olduğunu belirledi: Yapay zeka modelleri ayırt edici olmayan metinsel bilgilere (hasta geçmişi gibi) aşırı güveniyor ve farklı türdeki kanıtları etkili şekilde birleştiremiyor. Bu bulgular, tıbbi yapay zekanın henüz insan doktorların analitik becerilerini tam olarak karşılayamadığını gösteriyor.