Görsel ve metinleri aynı anda anlayabilen yapay zeka modellerinde beklenmedik bir güvenlik açığı ortaya çıktı. Araştırmacılar, CLIP gibi çok-modlu kodlayıcılarda 'hubness' adı verilen bir problemin ciddi tehditler oluşturabileceğini keşfetti.
Hub problemi, yüksek boyutlu matematiksel uzaylarda belirli noktaların alakasız pek çok örnekle yakın mesafede görünmesi durumudur. Cross-modal encoderlar farklı veri türlerini ortak bir uzayda temsil ettiğinden, bu durum özellikle kritik hale geliyor.
Çalışmada geliştirilen yöntem, tek bir 'hub metin'in binlerce alakasız görsel ile mantıksız yüksek benzerlik skorları elde edebildiğini ortaya koydu. Bu sorun, görsel arama motorlarından otomatik değerlendirme sistemlerine kadar geniş bir uygulama yelpazesini tehdit ediyor.
MSCOCO ve nocaps veri setlerinde yapılan görsel açıklama değerlendirmeleri ile Flickr30k'da gerçekleştirilen görsel-metin eşleştirme testleri, problemin yaygınlığını gözler önüne serdi. Araştırmacılar, bu açığın tespit edilmesi için sistemli bir yaklaşım geliştirerek, gelecekteki çok-modlu AI sistemlerinin güvenilirliğinin artırılması yolunda önemli bir adım attı.