Yapay zeka modelleri eğitildikleri ortamdan farklı koşullarda çalıştıklarında genellikle performans kaybı yaşarlar. Bu durum özellikle bilgisayarlı görü alanında ciddi bir sorun teşkil ediyor. Modeller belirli görsel stillere aşırı uyum sağladıklarında, nesnenin gerçek anlamsal özelliklerinden ziyade görsel görünümüne odaklanmaya başlıyorlar.
Araştırmacılar bu sorunu çözmek için CrossFlowDG adlı yenilikçi bir çerçeve geliştirdi. Bu yaklaşım, görsel ve metinsel verileri birleştirerek modellerin farklı alanlarda daha istikrarlı performans göstermesini amaçlıyor. Geleneksel çok modlu yöntemler kosinüs benzerliği temelli karşıtsal hizalama kullanırken, görüntü ve metin gömüleri arasında geometrik ayrım kalıyor.
CrossFlowDG bu sorunu gürültüsüz, çapraz modal akış eşleştirme kullanarak çözüyor. Sistem, ortak Öklid uzayında sürekli bir dönüşüm öğrenerek, alana yanlı görüntü gömülerini doğru sınıfın alandan bağımsız metin gömülerine taşıyor. Bu sayede model, görsel stillerdeki değişikliklerden etkilenmeden nesne tanıma görevlerini başarıyla yerine getiriyor.
VMamba görüntü kodlayıcısı ve CLIP metin kodlayıcısı kullanan bu sistem, bilgisayarlı görü alanında alan genelleme sorununun üstesinden gelmeye yönelik umut verici bir adım olarak değerlendiriliyor.