Yapay zeka teknolojisinin sağlık alanında hızla yaygınlaşmasıyla birlikte, bu sistemlerin ne kadar güvenilir olduğunu test etmek kritik önem kazanıyor. Ancak yeni bir araştırma, mevcut değerlendirme yöntemlerinin ciddi eksiklikler barındırdığını ortaya koyuyor.
Stanford Üniversitesi araştırmacıları, sağlık alanındaki büyük dil modellerinin test edildiği altı farklı benchmark sistemini inceledi. 18.707 tüketici sağlık sorusunu 16 farklı kategori altında analiz eden çalışma, test sistemleri ile gerçek dünya ihtiyaçları arasında büyük bir uyumsuzluk olduğunu tespit etti.
Araştırmanın en çarpıcı bulgusu, test verilerinin kompozisyonundaki dengesizlik. Verilerin %42'si nesnel sağlık bilgilerine odaklanmasına rağmen, bunların büyük kısmı (%17.7) fitness takipçileri ve wearable cihazlardan gelen basit wellness verileri. Oysa gerçek klinik ortamda kritik önem taşıyan laboratuvar sonuçları, radyoloji raporları gibi karmaşık tanı verileri test setlerinde çok az yer alıyor.
Bu durum, AI modellerinin test aşamasında başarılı görünmesine rağmen, gerçek hastane ortamında beklenmedik sorunlarla karşılaşma riskini artırıyor. Araştırmacılar, sağlık AI'larının klinik kullanıma hazır olup olmadığının doğru değerlendirilebilmesi için test sistemlerinin yeniden tasarlanması gerektiğini vurguluyor.