Yapay Zeka Tıp Asistanları Hastanın Cinsel Yöneline Göre Farklı Tanı Koyuyor

Tıp alanında kullanılan büyük dil modelleri, hastaların cinsel yönelimi ve dini inançları gibi sosyal özelliklerine göre farklı performans gösteriyor. Araştırmacılar 9 farklı AI modelini 2.364 tıbbi soru üzerinde test ederek, 'eşcinsel' tanımlamasının tutarlı şekilde performans düşüşüne yol açtığını keşfetti. Bu durum, AI sistemlerinin güvenilirlik seviyesini ölçen 'kalibrasyon' mekanizmalarında ciddi sorunlara neden oluyor. Özellikle birden fazla sosyal kimlik özelliği bir arada bulunduğunda, AI'ın kendine güven seviyesi ile gerçek doğruluk oranı arasında tehlikeli farklılıklar ortaya çıkıyor. Bu bulgular, tıbbi AI asistanlarının klinik ortamda güvenle kullanılabilmesi için sosyal önyargıların giderilmesi gerektiğini gösteriyor.

Stanford Üniversitesi araştırmacıları, tıp alanında kullanılan yapay zeka sistemlerinin hasta profillindeki sosyal özellikler nedeniyle önyargılı davranabildiğini ortaya koydu. Araştırma, büyük dil modellerinin (LLM) tıbbi sorulara verdiği yanıtlarda hastaların cinsel yönelimi ve dini inancı gibi faktörlerin belirleyici rol oynadığını gösteriyor.

Çalışmada 9 farklı AI modeli, genel amaçlı ve tıp odaklı sistemler dahil olmak üzere 2.364 tıbbi soru üzerinde test edildi. Araştırmacılar aynı tıbbi durumu farklı hasta profilleriyle sunarak, AI'ların tepkilerindeki değişimleri analiz etti. Sonuçlar, 'eşcinsel' tanımlamasının neredeyse tüm modellerde performans düşüşüne yol açtığını ortaya koydu.

Daha da endişe verici olan bulgu, AI sistemlerinin 'kalibrasyon krizi' yaşaması. Kalibrasyon, bir AI sisteminin kendi güven seviyesini doğru bir şekilde değerlendirme yetisi anlamına geliyor. Tıp alanında bu özellik kritik önemde çünkü AI'ın belirsiz olduğu durumlarda kararı hekime bırakması gerekiyor.

Özellikle birden fazla sosyal kimlik özelliği içeren hasta profillerinde, AI sistemlerinin güven seviyeleri ile gerçek doğruluk oranları arasında tehlikeli uyumsuzluklar ortaya çıktı. Bu durum, AI'ın yanlış olduğu durumlardan emin görünmesi veya doğru olduğu durumlarda aşırı temkinli davranması anlamına geliyor.

Araştırmacılar, bu sorunların sadece çoktan seçmeli test formatından kaynaklanmadığını göstermek için hekimler tarafından doğrulanan açık uçlu test senaryoları da gerçekleştirdi. Sonuçlar, tıbbi AI sistemlerinin klinik ortamda güvenle kullanılabilmesi için sosyal önyargıların giderilmesi gerektiğini vurguluyor.