Teknoloji & Yapay Zeka

Yapay zeka artık metindeki varlıkları görselde de bulabiliyor

Araştırmacılar, metinlerdeki özel isimleri tanımlayıp bunları ilgili görsellerde konumlandırabilen yeni bir yapay zeka sistemi geliştirdi. E2E-GMNER adlı bu sistem, bir metinde geçen kişi, yer veya kuruluş isimlerini sadece tanımlamakla kalmıyor, aynı zamanda bu varlıkları eşlik eden görsellerde de işaretleyebiliyor. Geleneksel yöntemler bu işlemleri ayrı aşamalarda gerçekleştirirken, yeni sistem tüm süreci tek seferde tamamlıyor. Bu yaklaşım, hata birikimini önleyerek daha doğru sonuçlar üretiyor. Sistem, zincirleme düşünce yöntemiyle çalışarak ne zaman görsel kanıtlara, ne zaman arka plan bilgisine güveneceğini akıllıca belirliyor. Bu gelişme, içerik analizi, sosyal medya izleme ve otomatik etiketleme gibi alanlarda önemli uygulamalara sahip.

Yapay zeka alanında önemli bir adım atılarak, metinlerdeki özel isimleri tanıyıp bunları görsellerde konumlandırabilen yeni bir sistem geliştirildi. E2E-GMNER (Uçtan Uca Üretken Çok Modlu İsimlendirilmiş Varlık Tanıma) adlı bu teknoloji, metin ve görsel analizi alanlarını birleştiren çığır açıcı bir yaklaşım sunuyor.

Sistem, bir metinde geçen kişi isimleri, yer adları, kuruluş isimleri gibi özel varlıkları tespit etmenin yanı sıra, bunları eşlik eden görsellerdeki ilgili bölgelere de bağlayabiliyor. Örneğin, bir metinde 'Eiffel Kulesi' geçiyorsa, sistemi bunu tanımlamanın yanında fotoğraftaki kulenin tam konumunu da işaretleyebiliyor.

Geleneksel yaklaşımlar bu işlemi iki ayrı aşamada gerçekleştiriyordu: önce metindeki varlıkları tanımlıyor, sonra bunları görselde arıyordu. Bu durum hata birikimine ve verimsizliğe yol açıyordu. Yeni sistem ise tüm süreci tek bir çok modlu dil modeli içinde birleştirerek bu sorunları çözüyor.

E2E-GMNER'in en önemli özelliklerinden biri, zincirleme düşünce mantığı kullanması. Bu sayede sistem, hangi durumlarda görsel kanıtlara güveneceğini, hangi durumlarda arka plan bilgisini kullanacağını akıllıca belirleyebiliyor. Bu yaklaşım, yanıltıcı görsel ipuçlarına bağımlılığı azaltarak daha güvenilir sonuçlar üretiyor.

Bu gelişme, sosyal medya analizi, haber içerik etiketleme, görsel arama motorları ve otomatik içerik düzenleme gibi birçok alanda devrim yaratma potansiyeli taşıyor.

Özgün Kaynak
arXiv (CS + AI)
E2E-GMNER: End-to-End Generative Grounded Multimodal Named Entity Recognition
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.