Yapay zeka teknolojilerinin sağlık alanında kullanımı hızla artarken, bu sistemlerin güvenilirliğini ölçmek kritik önem kazanıyor. Araştırmacılar, AI modellerinin tıbbi akıl yürütme süreçlerindeki hatalarını ne kadar iyi tespit edebildigini değerlendiren ilk kapsamlı ölçüm sistemini geliştirdi.
MedPRMBench adı verilen bu yeni değerlendirme sistemi, tıp alanının kendine özgü zorluklarını göz önünde bulunduruyor. Matematik gibi diğer alanlarda AI performansını ölçen araçlar mevcut olsa da, tıp alanı güvenlik kritikliği, yoğun bilgi gereksinimi ve çeşitli hata türleri açısından farklılık gösteriyor.
Sistem, Klinik Akıl Yürütme Planları temelinde üç aşamalı bir süreç izliyor. Yedi farklı tıbbi soru-cevap kaynağından toplanan veriler kullanılarak, hatalar 14 alt kategoride sınıflandırılıyor. Bu kategoriler basitlik, doğruluk ve hassasiyet olmak üzere üç ana grupta toplanıyor.
Özellikle dikkat çeken özellik, hataların ilk kez 4 seviyeli önem derecesi sistemine göre sınıflandırılması. Bu yaklaşım, hangi hataların daha kritik olduğunu belirlemeyi mümkün kılıyor.
Bu gelişme, sağlık hizmetlerinde AI kullanımının güvenliğini artırmak için atılan önemli bir adım olarak değerlendiriliyor. Sistemin, klinik uygulamalarda AI güvenilirliğini doğrulamak için gereken altyapıyı sağlaması bekleniyor.