Teknoloji & Yapay Zeka

Yapay zeka artık görsel ve kodla çalışan çok modlu öğrenme sistemleri geliştirebiliyor

Araştırmacılar, metin, görüntü ve vektör grafiklerini aynı anda anlayabilen yeni bir yapay zeka sistemi geliştirdi. mEOL adlı bu sistem, Scalable Vector Graphics (SVG) dosyalarının hem görsel hem de kod yapısını koruyarak işleyebiliyor. Geleneksel yöntemlerin aksine herhangi bir eğitim gerektirmiyor ve çok modlu büyük dil modellerini kullanarak farklı veri türlerini ortak bir anlam uzayında birleştiriyor. Sistem, her türlü girdiyi tek bir token'a özetleyerek kompakt temsiller oluşturuyor ve görsel arama uygulamalarında yüksek performans gösteriyor. Bu gelişme, yapay zekanın farklı veri türlerini entegre bir şekilde anlama yeteneğinde önemli bir adım teşkil ediyor.

Yapay zeka alanında çok modlu öğrenme sistemleri, farklı veri türlerini aynı anda işleyebilme yetenekleri ile dikkat çekiyor. Araştırmacılar tarafından geliştirilen mEOL (Multimodal Explicit One-word Limitation) sistemi, bu alanda yeni bir yaklaşım sunuyor.

Scalable Vector Graphics (SVG) dosyaları hem görsel imgeler hem de geometrik ve düzen bilgileri içeren yapısal kod olarak işlev görüyor. Ancak mevcut yöntemler genellikle bu dosyaları piksel tabanlı görüntülere dönüştürüyor ve değerli kod yapısını kaybediyorlar. mEOL sistemi bu soruna farklı bir çözüm getiriyor.

Sistem, çok modlu büyük dil modellerini (MLLM) kullanarak metin, raster görüntüler ve SVG kodunu ortak bir anlam uzayında birleştiriyor. En dikkat çekici özelliği ise herhangi bir özel eğitim sürecine ihtiyaç duymaması. Bunun yerine, modalite-spesifik talimatlar ve yapısal SVG ipuçları kullanarak gömme vektörlerinin yönünü kontrol ediyor.

mEOL'un temel bileşeni, çok modlu büyük dil modelini herhangi bir girdiyi tek bir token'a özetlemeye yönlendiren talimat sistemi. Bu token'ın gizli durumu, kompakt bir anlamsal temsil olarak kullanılıyor. Böylece sistem, farklı modalitelerden gelen bilgileri etkili bir şekilde karşılaştırabilir hale geliyor.

Bu gelişme, görsel arama sistemleri ve çok modlu veri analizi uygulamaları için önemli potansiyel taşıyor. Özellikle vektör grafiklerle çalışan tasarım ve mühendislik alanlarında yeni olanaklar sunuyor.

Özgün Kaynak
arXiv (CS + AI)
mEOL: Training-Free Instruction-Guided Multimodal Embedder for Vector Graphics and Image Retrieval
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.