Yapay zekanın görsel sorular karşısında tutarlı ve esnek karar verebilmesi için geliştirilen CoGR-MoE teknolojisi, mevcut sistemlerdeki önemli açıkları kapatmaya odaklanıyor. Görsel soru-cevap sistemleri, hem görsel hem de metinsel kanıtları değerlendirerek doğru yanıt seçeneklerini belirlemeye çalışır.

Mevcut Uzman Karışımı (MoE) yöntemleri, benzer kavramları gruplayarak veya örneklere dayalı yönlendirme yaparak seçenek muhakemesini geliştirmeye çalışıyor. Ancak bu sistemlerde karşılaşılan temel sorun, kararsız yönlendirmenin aynı soru türlerinde tutarsız uzman seçimine yol açması. Öte yandan aşırı sabit yönlendirme de esnekliği azaltabiliyor.

CoGR-MoE çerçevesi, bu dengeyi sağlamak için cevap seçeneklerinin semantik anlamlarını kullanarak eğitim aşamasında uzman seçimini yönlendiriyor. Sistem, seçenek özelliklerini kullanarak seçilen uzmanları yeniden ağırlıklandırıyor ve her aday seçenek için ayırt edici temsiller üretiyor.

Bu seçenek düzeyindeki temsiller, karşılaştırmalı öğrenme ile optimize edilmekte ve seçenekler arası karşılaştırmalarda kullanılmaktadır. Deneysel sonuçlar, CoGR-MoE'nin çoklu görsel soru-cevap görevlerinde güçlü performans sergilediğini ve bu yaklaşımın etkinliğini kanıtladığını gösteriyor.