Teknoloji & Yapay Zeka

Yapay Zeka Hasta Simülasyonları Gerçek Toplumu Yansıtmıyor

Stanford araştırmacıları, büyük dil modellerinin ruh sağlığı alanında hasta simülasyonu yaparken ciddi bir sorun keşfetti. GPT-4, DeepSeek ve Gemini gibi yapay zeka sistemleri, bireysel hastalar için mantıklı profiller oluşturabiliyor ancak toplum düzeyindeki gerçek hasta dağılımını doğru yansıtamıyor. 28.800 sanal hasta profili üzerinde yapılan kapsamlı incelemede, modellerin gerçek nüfus verilerine kıyasla çok daha dar bir varyans aralığında kaldığı görüldü. Bu durum, klinisyen eğitimi ve araştırma amaçlı kullanılan yapay zeka sistemlerinin yanıltıcı sonuçlar verebileceği anlamına geliyor. Araştırma, yapay zekanın tıbbi simülasyonlarda kullanımında dikkatli olunması gerektiğini gösteriyor.

Yapay zeka teknolojilerinin sağlık alanındaki kullanımı hızla artarken, bu sistemlerin güvenilirliği konusunda önemli bir araştırma yayınlandı. Araştırmacılar, büyük dil modellerinin ruh sağlığı hasta simülasyonlarında ne kadar başarılı olduğunu kapsamlı bir şekilde test etti.

PsychBench adı verilen bu çalışmada, GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash ve GLM-4.7 gibi önde gelen yapay zeka modelleri incelendi. Toplam 28.800 sanal hasta profili oluşturularak, bunlar gerçek sağlık veritabanları olan NHANES ve NESARC-III ile karşılaştırıldı.

Araştırmanın en çarpıcı bulgusu, modellerin 'tutarlılık-doğruluk ayrımı' sergilemesi oldu. Yapay zeka sistemleri, bireysel hasta profilleri oluştururken klinik açıdan mantıklı sonuçlar verirken, bu hastaların çekildiği genel nüfusu yanlış temsil ediyor.

Özellikle dikkat çeken nokta, modellerin varyans sıkıştırması yapması. DeepSeek-V3'te yüzde 62'ye varan bu sıkıştırma, gerçek klinik durumların uç değerlerini elimine ediyor. Bu durum, yapay zekanın nadir görülen ama kritik olan vakaları gözden kaçırabileceğini gösteriyor.

Araştırmacılar ayrıca, aynı test tekrar edildiğinde vakaların yüzde 36.66'sının tanı eşiklerini aştığını keşfetti. Bu tutarsızlık, yapay zeka destekli tıbbi eğitim ve araştırmalarda dikkatli olunması gerektiğine işaret ediyor.

Özgün Kaynak
arXiv (CS + AI)
PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.