Yapay zeka alanında görsel-dil modelleri artık sadece sorulara cevap vermekle kalmıyor, diğer modellerin performansını değerlendiren yargıçlar olarak da görev yapıyor. Ancak yeni bir araştırma, bu 'dijital yargıçların' beklenmedik bir zayıflığını ortaya çıkardı.
Araştırmacılar, görsel-dil modellerinin değerlendirme yaparken görsellere yeterince dikkat etmediğini keşfetti. Bu modeller, görüntüyle açıkça çelişen durumlar karşısında bile, daha detaylı ve bilgi yüklü cevapları sistematik olarak kayırıyor. Uzmanlar bu durumu 'bilgisellik önyargısı' olarak tanımlıyor.
Sorunun boyutunu anlamak için şöyle bir örnek düşünün: Bir kedi fotoğrafı gösterilen modele, kedinin köpek olduğunu iddia eden ama çok detaylı bir açıklama ile köpeğin cinsini, yaşını ve özelliklerini anlatan bir cevap sunulsa, model bu yanlış ama 'bilgili' cevabı doğru olan basit cevaba tercih edebiliyor.
Bu sorunu çözmek için araştırma ekibi BIRCH (Dengeli Bilgisellik ve Doğruluk) adlı yenilikçi bir yaklaşım geliştirdi. Sistem, önce adayların cevaplarını görüntü içeriğiyle tutarlı hale getiriyor, ardından bu düzeltilmiş versiyonlar üzerinden karşılaştırma yapıyor. Böylece odak noktası bilgi miktarından görsel doğruluğa kayıyor.
Çoklu model ve test ortamında yapılan denemeler, BIRCH'in bilgisellik önyargısını %17'ye kadar azalttığını ve genel performansı %9 oranında artırdığını gösteriyor. Bu gelişme, yapay zeka değerlendirmelerinin güvenilirliği açısından önemli bir adım olarak değerlendiriliyor.