Yapay zeka teknolojilerinin sağlık alanındaki kullanımı hızla artarken, bu sistemlerin güvenilirliği konusunda önemli bir araştırma yayınlandı. Araştırmacılar, büyük dil modellerinin ruh sağlığı hasta simülasyonlarında ne kadar başarılı olduğunu kapsamlı bir şekilde test etti.
PsychBench adı verilen bu çalışmada, GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash ve GLM-4.7 gibi önde gelen yapay zeka modelleri incelendi. Toplam 28.800 sanal hasta profili oluşturularak, bunlar gerçek sağlık veritabanları olan NHANES ve NESARC-III ile karşılaştırıldı.
Araştırmanın en çarpıcı bulgusu, modellerin 'tutarlılık-doğruluk ayrımı' sergilemesi oldu. Yapay zeka sistemleri, bireysel hasta profilleri oluştururken klinik açıdan mantıklı sonuçlar verirken, bu hastaların çekildiği genel nüfusu yanlış temsil ediyor.
Özellikle dikkat çeken nokta, modellerin varyans sıkıştırması yapması. DeepSeek-V3'te yüzde 62'ye varan bu sıkıştırma, gerçek klinik durumların uç değerlerini elimine ediyor. Bu durum, yapay zekanın nadir görülen ama kritik olan vakaları gözden kaçırabileceğini gösteriyor.
Araştırmacılar ayrıca, aynı test tekrar edildiğinde vakaların yüzde 36.66'sının tanı eşiklerini aştığını keşfetti. Bu tutarsızlık, yapay zeka destekli tıbbi eğitim ve araştırmalarda dikkatli olunması gerektiğine işaret ediyor.