Yapay zeka alanında çok modlu büyük dil modelleri (MLLM'ler) her geçen gün daha karmaşık görevleri üstlenebilir hale geliyor. Ancak görsel modaliteden gelen soyut bilgilerin anlaşılması ve bu bilgiler üzerinde muhakeme yapılması hâlâ önemli zorluklar barındırıyor.
Yeni araştırma, Çok Modlu İlişkisel Bilgi (MMRK) olarak adlandırılan ve çok modlu varlıklar arasındaki soyut ilişkisel yapıları düğüm-kenar formatlarıyla temsil eden bir yaklaşımı inceliyor. Bu tür verilere yönelik Yapılandırılmış ve Soyut Muhakeme (STAR) yeteneği, araştırma topluluğundan şimdiye kadar yeterli ilgiyi görmemiş durumda.
Araştırmacılar, bu alandaki büyük ölçekli yüksek kaliteli veri eksikliği ve yetenek geliştirme metodolojilerindeki boşlukları kapatmak için iki önemli katkı sunuyor. İlki, MMRK içeren görüntüleri sentezleyebilen ve çeşitli STAR görevleri için güvenilir düşünce zinciri mantığıyla çok modlu talimat verileri oluşturabilen otomatik bir veri motoru.
İkincisi ise kapsamlı iki aşamalı bir yetenek geliştirme eğitim çerçevesi. Bu yaklaşım, yapay zekanın görsel verilerden çıkardığı soyut ilişkileri daha iyi anlamasını ve bu bilgiler üzerinde daha etkili muhakeme yapabilmesini sağlıyor.