Yapay zeka sistemlerinin insan kullanıcılarla etkili işbirliği yapabilmeleri için insan niyetlerini doğru tahmin edebilmesi gerekiyor. Ancak yeni bir araştırma, büyük görsel-dil modellerinin bu konuda kritik bir eksikliği olduğunu ortaya koydu: ortak anlayış oluşturamama.

Araştırmacılar, farklı ikili kombinasyonlarla (insan-insan, insan-yapay zeka, yapay zeka-insan ve yapay zeka-yapay zeka) bir iletişim deneyi yürüttü. Deneyde katılımcılar, açık isimleri bulunmayan nesnelerin resimlerini birden çok tur halinde eşleştirmeye çalıştı.

Bulgular, LVLM'lerin etkileşimli olarak referans ifadeleri oluşturma ve çözümleme konusunda yetersiz kaldığını gösterdi. Bu beceri, insan dil kullanımının temelini oluşturan ve akıcı iletişimi mümkün kılan kritik bir yetenektir.

Araştırma kapsamında 89 çiftin 4'er tur boyunca gerçekleştirdiği toplam 356 diyalog kaydedildi. Verilerin toplanması için online bir sistem geliştirilirken, doğruluk, verimlilik ve kelime örtüşmesini analiz eden araçlar da oluşturuldu.

Bu çalışma, yapay zeka sistemlerinin insan benzeri iletişim becerilerine sahip olabilmesi için daha gelişmiş ortak anlayış modellemesi yeteneklerine ihtiyaç duyduğunu gösteriyor.