Görsel-dil modelleri birçok alanda etkileyici yetenekler sergilemesine rağmen, kompozisyonel mantık yürütme konusunda önemli sınırlamaları bulunuyor. Bu AI sistemleri özellikle kelime sırası ve özellik bağlama gibi temel dilbilimsel kavramlarda zorlanıyor.
Sorununun kökeninde, kontrastif ön-eğitim sürecinde ince semantik farklılıkları ayırt edebilecek yeterli bilgilendirici örnek eksikliği yatıyor. Araştırmacılar bu problemi çözmek için kelimelerin somutluk seviyesine dayalı yeni bir yaklaşım geliştirdi.
Çalışmada ortaya konan temel bulgulara göre, yüksek somutluk seviyesine sahip terimlerin değiştirilmesi, daha belirgin yapısal ve görsel farklılıklar yaratıyor. Bu durum AI modellerine önemli ölçüde güçlendirilmiş öğrenme sinyalleri sağlıyor.
Bu prensibi temel alan ConcretePlant sistemi, algısal temelli kavramları sistematik olarak izole ederek manipüle etme yeteneğine sahip. Yöntem, mevcut üretken mimariler yerine daha direkt bir yaklaşım benimsiyor.
InfoNCE analizleri, bu yaklaşımın geleneksel negatif örnek madenciliği yöntemlerine kıyasla önemli avantajlar sunduğunu gösteriyor.