Yapay zeka modellerinin görsel algı yeteneklerini artırmak için geliştirilen AttWarp tekniği, dikkat mekanizması tabanlı görüntü büküm yöntemiyle önemli bir ilerleme kaydediyor. Çok modlu büyük dil modelleri, karmaşık sahnelerde küçük detayları ve uzamsal ilişkileri yakalama konusunda zorlanıyordu.
AttWarp, modelin çapraz-modal dikkat mekanizmasını kullanarak giriş görüntüsünü dikdörtgen şekilde büküyor ve uzamsal çözünürlüğü modelin önemli gördüğü bölgelere yeniden dağıtıyor. Bu işlem sırasında orijinal görüntü bilgisinin tamamı korunuyor, ancak dağılımı eşit olmayan bir şekilde yeniden düzenleniyor.
Sistemin en dikkat çekici özelliği, model ağırlıklarını veya mimarisini değiştirmeden çalışması. Test aşamasında devreye giren bu hafif yöntem, sorgu ile ilgili içeriğe daha fazla çözünürlük ayırırken küresel bağlamı korumayı başarıyor.
TextVQA, GQA, DocVQA, POPE ve MMMU gibi beş farklı benchmark üzerinde yapılan testler, AttWarp'ın LLaVA, Qwen-VL, InternVL ve InstructBLIP gibi dört farklı çok modlu dil modelinde tutarlı başarı gösterdiğini ortaya koydu. Bu gelişme, yapay zekanın görsel algı yeteneklerinde önemli bir adım teşkil ediyor.