Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar AI modellerinin çok dilli ve çok kültürlü ortamlardaki performansını değerlendiren yeni bir test sistemi geliştirdi. Macaron adı verilen bu sistem, mevcut testlerin eksikliklerine odaklanarak tasarlandı.
Geleneksel çok dilli AI testlerinde önemli bir sorun bulunuyor: Bu testler genellikle İngilizce merkezli senaryoları diğer dillere çeviriyor, dolayısıyla kültürel bağlamları göz ardı ediyor. Macaron ise bu soruna farklı bir yaklaşım getiriyor. Sistem, 7 farklı mantık yürütme türünü ve 22 kültürel boyutu kapsayan 100 dil-bağımsız şablon kullanıyor.
Bu kapsamlı test sisteminde, her kültürden yerel uzmanlar kendi dillerinde sorular hazırlıyor. Böylece her soru hem o kültürün özelliklerini yansıtıyor hem de belirli bir mantık yürütme becerisini ölçüyor. Sistem toplamda 11.862 test örneği içeriyor ve 20 farklı ülke ile kültürel bağlamı kapsıyor.
Macaron'un en dikkat çekici özelliklerinden biri, düşük kaynaklı dillere verdiği önem. Amharca, Yoruba, Zulu, Kırgızca ve çeşitli Arap lehçeleri gibi genellikle AI testlerinde yer almayan diller de sistem içinde bulunuyor.
21 farklı çok dilli AI modeli üzerinde yapılan ilk testlerde, mantık odaklı modeller yüzde 80,8 genel başarı oranıyla en iyi performansı gösterdi. İngilizce ve yerel diller arasındaki performans farkının da nispeten az olduğu gözlemlendi.