Stanford Üniversitesi araştırmacıları, tıp alanında kullanılan yapay zeka sistemlerinin hasta profillindeki sosyal özellikler nedeniyle önyargılı davranabildiğini ortaya koydu. Araştırma, büyük dil modellerinin (LLM) tıbbi sorulara verdiği yanıtlarda hastaların cinsel yönelimi ve dini inancı gibi faktörlerin belirleyici rol oynadığını gösteriyor.
Çalışmada 9 farklı AI modeli, genel amaçlı ve tıp odaklı sistemler dahil olmak üzere 2.364 tıbbi soru üzerinde test edildi. Araştırmacılar aynı tıbbi durumu farklı hasta profilleriyle sunarak, AI'ların tepkilerindeki değişimleri analiz etti. Sonuçlar, 'eşcinsel' tanımlamasının neredeyse tüm modellerde performans düşüşüne yol açtığını ortaya koydu.
Daha da endişe verici olan bulgu, AI sistemlerinin 'kalibrasyon krizi' yaşaması. Kalibrasyon, bir AI sisteminin kendi güven seviyesini doğru bir şekilde değerlendirme yetisi anlamına geliyor. Tıp alanında bu özellik kritik önemde çünkü AI'ın belirsiz olduğu durumlarda kararı hekime bırakması gerekiyor.
Özellikle birden fazla sosyal kimlik özelliği içeren hasta profillerinde, AI sistemlerinin güven seviyeleri ile gerçek doğruluk oranları arasında tehlikeli uyumsuzluklar ortaya çıktı. Bu durum, AI'ın yanlış olduğu durumlardan emin görünmesi veya doğru olduğu durumlarda aşırı temkinli davranması anlamına geliyor.
Araştırmacılar, bu sorunların sadece çoktan seçmeli test formatından kaynaklanmadığını göstermek için hekimler tarafından doğrulanan açık uçlu test senaryoları da gerçekleştirdi. Sonuçlar, tıbbi AI sistemlerinin klinik ortamda güvenle kullanılabilmesi için sosyal önyargıların giderilmesi gerektiğini vurguluyor.