Multimodal büyük dil modelleri, hem görsel hem de metinsel verileri işleyebilen gelişmiş yapay zeka sistemleri olarak son dönemde otomatik değerlendirici görevinde yaygın şekilde kullanılmaya başlandı. Bu yaklaşım 'MLLM-as-a-Judge' olarak biliniyor ve yapay zekanın hakem rolü üstlendiği anlamına geliyor.
Ancak yeni araştırma, bu sistemlerin güvenilirlik konusunda ciddi açıkları olduğunu ortaya koyuyor. Araştırmacılar, birçok yapay zeka hakeminin kritik görsel veya metinsel ipuçlarını doğru şekilde entegre etmekte başarısız olduğunu tespit etti. Bu durum, kanıt eksik olduğunda veya uyumsuz olduğunda güvenilmez değerlendirmelere yol açıyor.
Problemi çözmek için araştırmacılar, MLLM hakem sistemlerinde 'Kompozisyonel Önyargı' kavramını sistematik olarak tanımladı ve MM-JudgeBias adlı kapsamlı bir değerlendirme sistemi geliştirdi. Bu sistem, sorgu, görsel ve yanıt bileşenlerinde kontrollü değişiklikler yaparak model davranışlarını analiz ediyor.
MM-JudgeBias, iki tamamlayıcı metrik kullanıyor: hassasiyet için Bias-Deviation (BD) ve kararlılık için Bias-Conformity (BC). 29 kaynak veri setinden derlenmiş 1800'den fazla özenle seçilmiş multimodal örnek içeren bu sistem, dokuz farklı önyargı türünün detaylı teşhisini mümkün kılıyor.
Bu çalışma, yapay zeka hakemlerinin objektif değerlendirme yapabilmesi için gereken iyileştirmelere ışık tutuyor ve güvenilir AI sistemlerinin geliştirilmesine katkı sağlıyor.