Yapay zeka alanında görsel ve dil işleme yeteneklerini birleştiren modeller büyük ilerleme kaydetse de, bu sistemlerin çoğunlukla İngilizce merkezli geliştirilmesi önemli sınırlamalara yol açıyor. Araştırmacılar bu soruna çözüm bulmak için kapsamlı bir çalışma gerçekleştirdi.
Çalışmada beş Avrupa dili için yeni eğitim ve değerlendirme kaynakları geliştirildi. İngilizce, Fransızca, Almanca, İtalyanca ve İspanyolca dillerini kapsayan bu kaynak seti, görsel-dil modellerinin çok dilli yeteneklerini artırmayı amaçlıyor.
Araştırma ekibi, yeniden üretim-çeviri paradigması adını verdikleri yenilikçi bir yaklaşım benimşedi. Bu yöntemle mevcut PixMo veri setlerinden yararlanarak Multi-PixMo adlı yeni bir eğitim korpusu oluşturdular. Süreçte sentetik üretim ve manuel açıklama tekniklerini birleştirerek yüksek kaliteli çok dilli kaynaklar ürettiler.
Bu gelişme, görsel içerikleri anlayabilen yapay zeka sistemlerinin sadece İngilizce konuşan kullanıcılara değil, farklı dil topluluklarına da hizmet edebilmesini sağlayacak. Çalışma, yapay zeka teknolojilerinin küresel erişimini artırma konusunda önemli bir adım olarak değerlendiriliyor.
Geliştirilen kaynakların araştırma topluluğuna sunulması, görsel-dil modellerinin çok dilli yeteneklerinin geliştirilmesine katkı sağlayacak ve bu alandaki dil çeşitliliği açığının kapatılmasına yardımcı olacak.