Yapay zeka teknolojilerinin tıp alanındaki kullanımı hızla artarken, bu sistemlerin ne kadar güvenilir olduğunu ölçmek kritik bir önem kazanıyor. Araştırmacılar, özellikle radyoloji alanında yapay zekanın performansını değerlendirmek için yeni bir kıyaslama sistemi geliştirdi.
LUNGUAGE adı verilen bu sistem, geleneksel değerlendirme yöntemlerinin eksikliklerini gidermeyi hedefliyor. Mevcut sistemler genellikle tek bir raporu analiz ediyor ve detaylı klinik bilgileri yakalayamıyor. Yeni sistem ise hem bireysel raporları hem de hastaların zaman içindeki durumunu takip eden longitudinal analizleri değerlendirebiliyor.
Veri seti, uzmanlar tarafından incelenmiş 1.473 göğüs röntgeni raporunu içeriyor. Bunların 186'sı, hastalık ilerlemesi ve çalışmalar arası zaman aralıklarını gösteren uzun vadeli notlarla zenginleştirilmiş durumda. Bu özellik, yapay zekanın sadece anlık tanı koymakla kalmayıp, hastalığın seyrini ne kadar iyi takip edebildiğini test etmeyi mümkün kılıyor.
Araştırmacılar ayrıca, üretilen raporları yapılandırılmış formatlara dönüştüren iki aşamalı bir çerçeve geliştirdi. Bu yaklaşım, yapay zeka sistemlerinin klinik raporları daha tutarlı ve anlaşılır şekilde üretmesine yardımcı oluyor. LUNGUAGESCORE adlı yeni değerlendirme metriği ise sonuçları daha şeffaf ve yorumlanabilir hale getiriyor.