Yapay zeka alanında önemli bir gelişme yaşanırken, çok modlu büyük dil modelleri (MLLM) için yeni bir optimizasyon yöntemi geliştirildi. EvoComp adı verilen bu framework, görsel token sıkıştırma problemimine innovative bir çözüm getiriyor.
Mevcut çok modlu yapay zeka sistemleri, görsel-metin anlama görevlerinde güçlü performans sergiliyor ancak özellikle yüksek çözünürlüklü görüntüler ve çoklu görsel içeriklerle çalışırken büyük miktarda görsel token işlemek zorunda kalıyor. Bu durum, sistemlerin çıkarım hızını önemli ölçüde yavaşlatıyor.
EvoComp, bu sorunu hafif bir encoder-only transformer tabanlı sıkıştırıcı kullanarak çözüyor. Sistem, görsel ve metinsel bağlamları birlikte değerlendirerek en bilgilendirici ve gereksiz olmayan görsel tokenları seçiyor. Bu süreçte semantik çeşitliliği korumak için kelime dağarcığı tabanlı token gruplama yöntemi kullanılıyor.
Araştırmanın en özgün yanı, sıkıştırıcının eğitimi için geliştirilen evrimsel etiketleme stratejisi. Bu yöntem, MLLM'nin çıktı kaybını minimize eden token alt kümelerini arayarak etkili bir denetim sağlıyor. Sonuç olarak, görev doğruluğunu koruyarak token sayısını önemli ölçüde azaltan bir sistem ortaya çıkıyor.