Teknoloji & Yapay Zeka

Yapay Zeka Modelleri İçin Görsel Veri Sıkıştırma Yöntemi Geliştirildi

Araştırmacılar, çok modlu yapay zeka modellerinin görsel işleme hızını artırmak için EvoComp adlı yeni bir framework geliştirdi. Bu sistem, yüksek çözünürlüklü görüntülerde ve çoklu görsel senaryolarda performans düşüşüne neden olan fazla görsel token sayısını önemli ölçüde azaltıyor. EvoComp, hafif bir transformer tabanlı sıkıştırıcı kullanarak en bilgilendirici görsel tokenları seçiyor ve semantik çeşitliliği korurken gereksiz verileri elimine ediyor. Evrimsel etiketleme stratejisi ile eğitilen sistem, görev doğruluğunu koruyarak işlem verimliliğini artırıyor. Bu gelişme, yapay zeka modellerinin görsel-metin anlama kapasitelerini hızlandırarak pratik uygulamalarda daha etkili çalışmasını sağlıyor.

Yapay zeka alanında önemli bir gelişme yaşanırken, çok modlu büyük dil modelleri (MLLM) için yeni bir optimizasyon yöntemi geliştirildi. EvoComp adı verilen bu framework, görsel token sıkıştırma problemimine innovative bir çözüm getiriyor.

Mevcut çok modlu yapay zeka sistemleri, görsel-metin anlama görevlerinde güçlü performans sergiliyor ancak özellikle yüksek çözünürlüklü görüntüler ve çoklu görsel içeriklerle çalışırken büyük miktarda görsel token işlemek zorunda kalıyor. Bu durum, sistemlerin çıkarım hızını önemli ölçüde yavaşlatıyor.

EvoComp, bu sorunu hafif bir encoder-only transformer tabanlı sıkıştırıcı kullanarak çözüyor. Sistem, görsel ve metinsel bağlamları birlikte değerlendirerek en bilgilendirici ve gereksiz olmayan görsel tokenları seçiyor. Bu süreçte semantik çeşitliliği korumak için kelime dağarcığı tabanlı token gruplama yöntemi kullanılıyor.

Araştırmanın en özgün yanı, sıkıştırıcının eğitimi için geliştirilen evrimsel etiketleme stratejisi. Bu yöntem, MLLM'nin çıktı kaybını minimize eden token alt kümelerini arayarak etkili bir denetim sağlıyor. Sonuç olarak, görev doğruluğunu koruyarak token sayısını önemli ölçüde azaltan bir sistem ortaya çıkıyor.

Özgün Kaynak
arXiv (CS + AI)
EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.