Yapay zeka alanında çok modlu büyük dil modelleri (MLLM) hızlı ilerleme kaydetmesine rağmen, bu modellerin büyüme davranışları metin tabanlı modeller kadar net karakterize edilememiş durumda. Yeni bir araştırma, bu alandaki temel darboğazın beklenenden farklı olduğunu ortaya koyuyor.
Araştırmacılar, çok modlu ölçeklendirmedeki asıl engelin görev formatı değil, eğitim verilerindeki bilgi yoğunluğu olduğunu savunuyor. Çalışmada, Görsel Soru Yanıtlama (VQA) gibi göreve özgü denetim yöntemlerinin, görüntü açıklamalarının ötesinde çok az artımsal semantik bilgi katkısı sağladığı gösterildi.
En dikkat çekici bulgu, VQA sinyallerinin açıklamalardan ihmal edilebilir performans kaybıyla yeniden oluşturulabilmesi. Bu durum, mevcut eğitim yaklaşımlarının etkinliğini sorguluyor ve veri kalitesine odaklanmanın önemini vurguluyor.
Araştırma ekibi, yapılandırılmış açıklama zenginleştirme ve çapraz-modal bilgi enjeksiyonu yoluyla bilgi yoğunluğunun artırılmasının, hem çok modlu hem de alt akım ölçütlerde tutarlı performans iyileştirmelerine yol açtığını kanıtladı. Kontrollü deneyler boyunca performansın, görev çeşitliliğinden ziyade semantik kapsam ile daha güçlü korelasyon gösterdiği gözlemlendi.
Bu bulgular, gelecekteki AI modellerinin geliştirilmesinde strateji değişikliği gerektirebilir ve veri kalitesinin model büyüklüğünden daha kritik olabileceğini işaret ediyor.