Yapay zeka teknolojilerinin tıp alanındaki hızlı ilerleyişi, bu sistemlerin güvenilirliğini ölçen test yöntemlerinin ne kadar sağlam olduğu sorusunu gündeme getiriyor. Yeni bir araştırma, mevcut değerlendirme sistemlerinin beklenenden çok daha fazla eksiklik taşıdığını ortaya koydu.
Araştırmacılar, tıbbi büyük dil modellerini değerlendiren 53 farklı benchmark sistemini detaylı olarak inceledi. Sonuçlar oldukça çarpıcı: Bu test sistemlerinin büyük çoğunluğu gerçek klinik uygulamalardan kopuk, veri güvenilirliği sorunlu ve güvenlik açısından yetersiz bulundu.
Tespit edilen sorunların başında, değerlendirme sistemlerinin gerçek hastane ortamını yansıtmaması geliyor. Mevcut testler çoğunlukla teorik bilgiyi ölçmeye odaklanırken, pratik klinik karar verme süreçlerini göz ardı ediyor. Bu durum, yapay zekanın gerçek ortamdaki performansı hakkında yanıltıcı sonuçlar doğurabiliyor.
Araştırmada geliştirilen MedCheck framework'ü, tıbbi yapay zeka değerlendirmelerinde tasarım aşamasından yönetişime kadar beş temel evre tanımlıyor. Bu yaklaşım, 46 özel kriteriyle sistemlerin güvenilirliğini çok boyutlu olarak değerlendiriyor.
En kritik bulgulardan biri ise güvenlik odaklı değerlendirme eksikliği. Mevcut sistemlerin hastane güvenlik protokollerini ve hasta mahremiyetini yeterince dikkate almadığı tespit edildi. Bu durum, gelecekte tıp alanında kullanılacak yapay zeka sistemlerinin güvenlik standartlarının acilen gözden geçirilmesi gerektiğini gösteriyor.