Yapay zeka destekli görüntü arama teknolojilerinde önemli bir adım atıldı. Araştırmacılar, görüntü ve metin kombinasyonunu kullanan arama sistemlerindeki veri gürültüsü problemine yönelik yenilikçi bir çözüm geliştirdi.

Bileşik Görüntü Arama (CIR) teknolojisi, kullanıcıların bir referans görüntü ile birlikte yazılı açıklama kullanarak istedikleri görüntüleri bulmalarını sağlıyor. Örneğin, bir ayakkabı fotoğrafı gösterip 'daha koyu renkte' yazarak benzer ama farklı özellikteki ürünleri bulabiliyorsunuz. Ancak bu sistemlerin eğitimi için gereken veri setlerinde, yüksek etiketleme maliyetleri nedeniyle kaçınılmaz hatalar oluşuyor.

Yeni geliştirilen INTENT (Invariance and Discrimination-aware Noise Mitigation) yöntemi, bu gürültü problemini sistematik olarak ele alıyor. Araştırmacılar gürültüyü iki ana kategoriye ayırıyor: Birincisi, farklı modaliteler (görüntü-metin) arasındaki yanlış eşleştirmelerden kaynaklanan gürültü. İkincisi ise, görüntü içindeki arka plan karışıklığı veya etiketle ilgisiz görsel öğelerden oluşan modalite-içi gürültü.

Bu yaklaşım, multimodal yapay zeka sistemlerinin gerçek dünya koşullarında daha güvenilir çalışmasını sağlıyor. Özellikle e-ticaret, dijital arşivleme ve içerik yönetimi alanlarında önemli uygulamaları bulunacak olan bu teknoloji, kullanıcı deneyimini iyileştirmeyi hedefliyor.