Yapay zeka alanında çok modlu öğrenme sistemleri, farklı veri türlerini aynı anda işleyebilme yetenekleri ile dikkat çekiyor. Araştırmacılar tarafından geliştirilen mEOL (Multimodal Explicit One-word Limitation) sistemi, bu alanda yeni bir yaklaşım sunuyor.
Scalable Vector Graphics (SVG) dosyaları hem görsel imgeler hem de geometrik ve düzen bilgileri içeren yapısal kod olarak işlev görüyor. Ancak mevcut yöntemler genellikle bu dosyaları piksel tabanlı görüntülere dönüştürüyor ve değerli kod yapısını kaybediyorlar. mEOL sistemi bu soruna farklı bir çözüm getiriyor.
Sistem, çok modlu büyük dil modellerini (MLLM) kullanarak metin, raster görüntüler ve SVG kodunu ortak bir anlam uzayında birleştiriyor. En dikkat çekici özelliği ise herhangi bir özel eğitim sürecine ihtiyaç duymaması. Bunun yerine, modalite-spesifik talimatlar ve yapısal SVG ipuçları kullanarak gömme vektörlerinin yönünü kontrol ediyor.
mEOL'un temel bileşeni, çok modlu büyük dil modelini herhangi bir girdiyi tek bir token'a özetlemeye yönlendiren talimat sistemi. Bu token'ın gizli durumu, kompakt bir anlamsal temsil olarak kullanılıyor. Böylece sistem, farklı modalitelerden gelen bilgileri etkili bir şekilde karşılaştırabilir hale geliyor.
Bu gelişme, görsel arama sistemleri ve çok modlu veri analizi uygulamaları için önemli potansiyel taşıyor. Özellikle vektör grafiklerle çalışan tasarım ve mühendislik alanlarında yeni olanaklar sunuyor.