Yapay zeka modellerinin tıp ve biyomedisin gibi uzman alanlarda başarılı olabilmesi için alan-specific bilgilerle desteklenmesi gerekiyor. Yeni bir araştırma, bu hedefe ulaşmak için iki farklı stratejiyi derinlemesine inceledi.

Araştırmacılar, UMLS Metathesaurus'tan yararlanarak 3,4 milyon kavram ve 34,2 milyon ilişki barındıran kapsamlı bir biyomedikal bilgi grafiği oluşturdu. Bu devasa veri yapısı Neo4j veritabanında depolanarak hızlı sorgulamalara olanak sağladı.

İlk yaklaşımda, bu bilgi grafiğinden yaklaşık 100 milyon token içeren bir metin korpusu türetilerek BERT ve BioBERT modelleri sürekli eğitim yöntemiyle güncellendi. Böylece BERTUMLS ve BioBERTUMLS adlı yeni modeller ortaya çıktı. Bu yöntemde bilgiler doğrudan model parametrelerine gömülüyor.

İkinci yaklaşım olan Graph Retrieval-Augmented Generation (GraphRAG) ise farklı bir mantıkla çalışıyor. Bu sistemde model, cevap verme aşamasında bilgi grafiğinden gereken bilgileri dinamik olarak çekiyor.

Her iki yaklaşım da BLURB (Biyomedikal Dil Anlayışı ve Akıl Yürütme Kıyaslaması) kapsamında altı farklı veri setinde test edildi. Testler beş farklı görev türünde yapılarak modellerin gerçek performansı ölçüldü.