Sağlık sektöründe yapay zeka kullanımının artmasıyla birlikte, bu sistemlerin güvenilirliğini ölçmek büyük bir challenge haline geldi. Araştırmacılar, yapay zekanın kendi türünü değerlendirdiği yenilikçi bir yaklaşımı mercek altına aldı.
Bu kapsamlı araştırmada, 'LLM-as-a-Judge' adı verilen sistem detaylı olarak incelendi. Bu teknoloji, büyük dil modellerinin sağlık alanındaki performansını yine yapay zeka sistemleri aracılığıyla değerlendiriyor. Maliyetli uzman değerlendirmelerine alternatif sunmasına rağmen, güvenlik ve önyargı konularında ciddi sorular barındırıyor.
Araştırma ekibi, altı farklı veritabanından 11 bin 727 çalışmayı taradı ve bunlar arasından 49 tanesini detaylı analize tabi tuttu. Bulgular, alanın %75,5'inin değerlendirme ve benchmark uygulamalarından oluştuğunu gösteriyor. Çalışmaların büyük çoğunluğu GPT ailesini hakim olarak kullanıyor.
Ancak endişe verici bulgular da var. İncelenen çalışmalarda doğrulama süreçlerinin yetersizliği öne çıkıyor. Uzman görüşü alınan çalışmalarda median validator sayısı sadece 3, bazı çalışmalarda ise hiç uzman görüşü bulunmuyor. Demografik adalet testini yapan çalışma sayısı ise yalnızca bir tane.