Yapay zeka alanında dil modellerin çok dilli yeteneklerini değerlendirmek için yeni bir ölçüm standardı geliştirildi. MultiBLiMP 1.0 adlı bu kapsamlı test sistemi, 101 farklı dili kapsayarak bugüne kadar oluşturulan en geniş çaplı dil bilgisi değerlendirme araçlarından biri haline geldi.
Sistem, minimal çiftler adı verilen özel test yöntemini kullanıyor. Bu yöntemde, sadece tek bir dil bilgisi özelliği farklı olan iki cümle karşılaştırılıyor. Örneğin 'Çocuk koşuyor' ve 'Çocuklar koşuyor' gibi cümlelerle, modelin tekil-çoğul uyumunu doğru şekilde anlayıp anlamadığı test ediliyor. MultiBLiMP 1.0, bu yaklaşımla 128 binden fazla test çifti oluşturdu.
Araştırma ekibi, test setini oluştururken Universal Dependencies ve UniMorph gibi kapsamlı dil kaynaklarından yararlandı. Tamamen otomatik çalışan bu sistem, özne-yüklem uyumu gibi temel dil bilgisi kurallarına odaklanıyor. Bu kurallar her dilde farklı şekillerde işlediği için, modellerin gerçek dil anlama yeteneklerini ölçmek açısından kritik öneme sahip.
Çalışmanın en çarpıcı bulgusu, günümüzün en gelişmiş dil modellerinin bile kaynak açısından sınırlı dillerde ciddi zorluklar yaşadığını göstermesi. Bu durum, yapay zeka sistemlerinin gerçekten evrensel dil yeteneklerine sahip olabilmesi için daha fazla araştırmaya ihtiyaç olduğunu ortaya koyuyor.