Tıp alanında yapay zeka kullanımının hızla yaygınlaşmasıyla birlikte, bu sistemlerin irksal önyargı potansiyeli kritik bir sorun haline geldi. Yeni bir araştırma, beş önemli dil modelinin klinik ortamlarda sergilediği önyargıları detaylı şekilde inceledi.
Çalışma, GPT-4.1 ve DeepSeek V3 dahil olmak üzere yaygın kullanılan modelleri iki temel görevde test etti: sentetik hasta vakası oluşturma ve ayırıcı tanı sıralaması. Araştırmacılar, ABD'deki irksal epidemiyolojik dağılımları ve uzman tanı listelerini referans alarak modellerin performansını değerlendirdi.
Sonuçlar dikkat çekici: Tüm modeller, sentetik vaka üretiminde gözlemlenen irksal dağılımlardan önemli sapmalar gösterdi. GPT-4.1 bu kategoride en az sapma sergilerken, ayırıcı tanı görevinde DeepSeek V3 en güçlü genel performansı ortaya koydu.
Araştırma, AB Yapay Zeka Yasası çerçevesinde bu önyargıları değerlendirerek, hem açık hem de örtük irksal önyargıları tespit etmeye odaklandı. Bu bulgular, yapay zekanın tıbbi karar verme süreçlerindeki rolü göz önüne alındığında hasta güvenliği ve sağlık adaleti açısından ciddi endişeler yaratıyor.
Uzmanlar, bu tür önyargıların klinik ortamlarda eşitsiz sağlık hizmetlerine yol açabileceğini ve yapay zeka sistemlerinin geliştirilmesinde daha güçlü denetim mekanizmalarına ihtiyaç olduğunu vurguluyor.