Yapay zeka alanında önemli bir gelişme yaşanıyor. Çok modlu büyük dil modelleri (MLLM'ler), metin ve görsel verileri birlikte işleyebilme kabiliyetleriyle dikkat çekse de, halüsinasyon ve güncel olmayan bilgi gibi temel sorunlarla karşılaşıyor. Bu zorlukları aşmak için geliştirilen Çok Modlu Retrieval-Augmented Generation (MRAG) sistemleri, dış kaynaklardan veri alarak modellerin daha güvenilir çalışmasını sağlıyor.
Ancak mevcut MRAG sistemleri kritik bir eksiklikle karşılaşıyor: aldıkları çok modlu verilerin gerçekten yanıtın anlamsal çekirdeğini destekleyip desteklemediğini ayırt etmekte zorlanıyorlar. Çoğu sistem, sadece yüzeysel benzerlik gösterebilen sezgisel konum tabanlı güven ölçütlerine dayanıyor.
Bu sorunu çözmek için araştırmacılar, Multi-modal Evidence Grounding (MEG) adlı yenilikçi bir ölçüt geliştirdi. MEG, standart güven ölçütlerinden farklı olarak, Semantic Certainty Anchoring teknolojisini kullanıyor. Bu yaklaşım, yanıtın anlamsal çekirdeğini daha iyi yakalayan yüksek IDF değerli bilgi taşıyan sözcüklere odaklanıyor.
MEG temelinde geliştirilen MEG-RAG çerçevesi, alınan kanıtları anlamsal çapayla hizalamak için çok modlu bir yeniden sıralayıcı eğitiyor. Bu sistem, bilgi yoğunluğunu daha doğru ölçerek yapay zeka modellerinin daha güvenilir ve anlamlı yanıtlar üretmesini sağlıyor.