Tek Metin CLIP'i Nasıl Yanıltıyor? Yapay Zeka Modellerinde Hub Açığı Keşfedildi

Araştırmacılar, görsel ve metin verilerini birlikte işleyen CLIP gibi yapay zeka modellerinde kritik bir güvenlik açığı keşfetti. 'Hub metinler' olarak adlandırılan bu sorun, yüksek boyutlu embedding uzaylarında ortaya çıkıyor ve tek bir metin parçasının alakasız binlerce görsel ile yanlış şekilde eşleştirilmesine neden oluyor. Bu durum, görsel arama sistemlerinden otomatik değerlendirme metriklerine kadar pek çok uygulamada ciddi sorunlar yaratabilir. MSCOCO ve Flickr30k gibi veri setlerinde yapılan deneyler, bu hub metinlerin görsel-metin benzerlik skorlarını mantıksız şekilde yükselttiğini gösterdi.

Görsel ve metinleri aynı anda anlayabilen yapay zeka modellerinde beklenmedik bir güvenlik açığı ortaya çıktı. Araştırmacılar, CLIP gibi çok-modlu kodlayıcılarda 'hubness' adı verilen bir problemin ciddi tehditler oluşturabileceğini keşfetti.

Hub problemi, yüksek boyutlu matematiksel uzaylarda belirli noktaların alakasız pek çok örnekle yakın mesafede görünmesi durumudur. Cross-modal encoderlar farklı veri türlerini ortak bir uzayda temsil ettiğinden, bu durum özellikle kritik hale geliyor.

Çalışmada geliştirilen yöntem, tek bir 'hub metin'in binlerce alakasız görsel ile mantıksız yüksek benzerlik skorları elde edebildiğini ortaya koydu. Bu sorun, görsel arama motorlarından otomatik değerlendirme sistemlerine kadar geniş bir uygulama yelpazesini tehdit ediyor.

MSCOCO ve nocaps veri setlerinde yapılan görsel açıklama değerlendirmeleri ile Flickr30k'da gerçekleştirilen görsel-metin eşleştirme testleri, problemin yaygınlığını gözler önüne serdi. Araştırmacılar, bu açığın tespit edilmesi için sistemli bir yaklaşım geliştirerek, gelecekteki çok-modlu AI sistemlerinin güvenilirliğinin artırılması yolunda önemli bir adım attı.