Yapay Zeka Hekimler: Sağlıkta AI'nin AI'yi Değerlendirdiği Yeni Sistem

Sağlık alanında büyük dil modellerinin yaygınlaşmasıyla birlikte, bu sistemlerin değerlendirilmesi kritik hale geldi. Araştırmacılar, yapay zekanın yapay zekayı değerlendirdiği 'LLM-as-a-Judge' yaklaşımını inceledi. Bu sistem, uzman doktor görüşüne alternatif olarak öne çıkıyor ancak güvenlik endişeleri de beraberinde getiriyor. 11 bin 727 çalışmanın tarandığı kapsamlı araştırmada, bu alandaki 49 çalışma detaylı olarak incelendi. Sonuçlar, teknolojinin hızla benimsendiğini ancak doğrulama süreçlerinin yetersiz kaldığını ortaya koyuyor. Çalışmaların çoğunda uzman validator sayısının sadece 3 olduğu, bazılarında ise hiç uzman görüşü alınmadığı tespit edildi.

Sağlık sektöründe yapay zeka kullanımının artmasıyla birlikte, bu sistemlerin güvenilirliğini ölçmek büyük bir challenge haline geldi. Araştırmacılar, yapay zekanın kendi türünü değerlendirdiği yenilikçi bir yaklaşımı mercek altına aldı.

Bu kapsamlı araştırmada, 'LLM-as-a-Judge' adı verilen sistem detaylı olarak incelendi. Bu teknoloji, büyük dil modellerinin sağlık alanındaki performansını yine yapay zeka sistemleri aracılığıyla değerlendiriyor. Maliyetli uzman değerlendirmelerine alternatif sunmasına rağmen, güvenlik ve önyargı konularında ciddi sorular barındırıyor.

Araştırma ekibi, altı farklı veritabanından 11 bin 727 çalışmayı taradı ve bunlar arasından 49 tanesini detaylı analize tabi tuttu. Bulgular, alanın %75,5'inin değerlendirme ve benchmark uygulamalarından oluştuğunu gösteriyor. Çalışmaların büyük çoğunluğu GPT ailesini hakim olarak kullanıyor.

Ancak endişe verici bulgular da var. İncelenen çalışmalarda doğrulama süreçlerinin yetersizliği öne çıkıyor. Uzman görüşü alınan çalışmalarda median validator sayısı sadece 3, bazı çalışmalarda ise hiç uzman görüşü bulunmuyor. Demografik adalet testini yapan çalışma sayısı ise yalnızca bir tane.