Çok Modlu Yapay Zeka Neden Geride Kalıyor? İç Mekanizmalar Araştırıldı

16 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Yapay zeka modellerinin yeni görevleri örneklerden öğrenmesini sağlayan 'bağlam içi öğrenme' yöntemi, sadece metinle çalışırken başarılı olsa da görsel ve metinsel verileri birlikte işlerken zorlanıyor. Araştırmacılar, çok modlu büyük dil modellerinin neden tek modal karşılıklarından daha zayıf performans sergilediğini sistematik olarak inceledi. Bulgular, mevcut modellerin görsel ve metinsel temsiller arasında mantıksal düzeyde yeterli hizalamaya sahip olmadığını ve öğrenilen görev eşlemelerini güvenilir şekilde aktaramadığını gösteriyor. Bu keşif, yapay zeka sistemlerinin farklı veri türlerini daha etkili şekilde birleştirmesi için gereken iyileştirmelere ışık tutuyor.

Yapay zeka alanında önemli bir gelişme olan 'bağlam içi öğrenme' (ICL) yöntemi, modellerin yeni görevleri sadece örnekler gösterilerek öğrenmesini sağlıyor. Bu teknik büyük dil modellerinde büyük başarı elde etmesine rağmen, görsel ve metinsel verileri birlikte işleyen çok modlu sistemlerde beklenenden düşük performans sergiliyor.

Araştırmacılar, çok modlu büyük dil modellerinde ICL yönteminin nasıl çalıştığını sistematik olarak analiz etti. Aynı görev formülasyonlarını farklı veri türlerinde kullanarak yaptıkları karşılaştırmalarda, çok modlu ICL'nin hiç örnek verilmeyen durumlarda (zero-shot) sadece metinle çalışan versiyonuyla benzer performans gösterdiği, ancak az sayıda örnek verildiğinde (few-shot) performansının önemli ölçüde düştüğü gözlemlendi.

Bu performans farkını anlamak için araştımacılar, çok modlu ICL sürecini 'görev eşleme oluşturma' ve 'görev eşleme aktarma' olmak üzere iki ana bileşene ayırdı. Analizler, modellerin farklı modaliteler arasında çapraz görev eşlemelerini nasıl kurduğunu ve bunları sorgu örneklerine katmanlar boyunca nasıl aktardığını inceledi.

Araştırmanın en çarpıcı bulgusu, mevcut modellerin görsel ve metinsel temsiller arasında mantıksal düzeyde yeterli hizalamaya sahip olmadığının ortaya çıkması oldu. Bu durum, modellerin öğrenilen bilgileri güvenilir şekilde aktarmasını engelliyor ve çok modlu yapay zeka sistemlerinin geliştirilmesinde önemli bir engel oluşturuyor.

Etiketler

#yapay zeka #çok modlu öğrenme #bağlam içi öğrenme #makine öğrenmesi #dil modelleri

Özgün Kaynak

Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks

https://arxiv.org/abs/2604.13403

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.