Yapay zeka alanında görsel içeriği metne dönüştürme teknolojisinde kritik bir sorun tespit edildi. Görsel-dil modellerinin (VLM) performans değerlendirmesinde uzun açıklamaların daha kaliteli kabul edilmesi yanılgısı, sistemlerin gerçek etkinliğini maskelediği ortaya çıktı.

Araştırmacılar, açıklamanın özgüllüğü ile uzunluğu arasında yapılan yanlış bağlantıya dikkat çekiyor. Özgüllük, bir açıklamanın hedef görseli diğer olası görsellerden ne kadar iyi ayırt ettiği ile ölçülmeli. Bu yaklaşımla hazırlanan deneysel veri setinde, kelime sayısı sabit tutulurken bilgi içeriği değiştirildi.

İnsan değerlendirmecilerle yapılan testler çarpıcı sonuçlar verdi: Katılımcılar uzunluktan bağımsız olarak, daha özgül açıklamaları tutarlı şekilde tercih etti. Bu durum, mevcut değerlendirme sistemlerinin temel bir hataya dayandığını gösteriyor.

Araştırma, sadece metin uzunluğunu kontrol etmenin özgüllük farklılıklarını açıklayamadığını kanıtladı. Asıl önemli olan, verilen kelime bütçesinin nasıl kullanıldığı. Bu bulgular, görme engelli bireyler için erişilebilirlik araçlarından yapay zeka tabanlı içerik üretim sistemlerine kadar geniş bir alanda köklü değişikliklere yol açabilir.