Yapay zeka alanında önemli bir gelişme olan 'bağlam içi öğrenme' (ICL) yöntemi, modellerin yeni görevleri sadece örnekler gösterilerek öğrenmesini sağlıyor. Bu teknik büyük dil modellerinde büyük başarı elde etmesine rağmen, görsel ve metinsel verileri birlikte işleyen çok modlu sistemlerde beklenenden düşük performans sergiliyor.
Araştırmacılar, çok modlu büyük dil modellerinde ICL yönteminin nasıl çalıştığını sistematik olarak analiz etti. Aynı görev formülasyonlarını farklı veri türlerinde kullanarak yaptıkları karşılaştırmalarda, çok modlu ICL'nin hiç örnek verilmeyen durumlarda (zero-shot) sadece metinle çalışan versiyonuyla benzer performans gösterdiği, ancak az sayıda örnek verildiğinde (few-shot) performansının önemli ölçüde düştüğü gözlemlendi.
Bu performans farkını anlamak için araştımacılar, çok modlu ICL sürecini 'görev eşleme oluşturma' ve 'görev eşleme aktarma' olmak üzere iki ana bileşene ayırdı. Analizler, modellerin farklı modaliteler arasında çapraz görev eşlemelerini nasıl kurduğunu ve bunları sorgu örneklerine katmanlar boyunca nasıl aktardığını inceledi.
Araştırmanın en çarpıcı bulgusu, mevcut modellerin görsel ve metinsel temsiller arasında mantıksal düzeyde yeterli hizalamaya sahip olmadığının ortaya çıkması oldu. Bu durum, modellerin öğrenilen bilgileri güvenilir şekilde aktarmasını engelliyor ve çok modlu yapay zeka sistemlerinin geliştirilmesinde önemli bir engel oluşturuyor.