Kültürel Akıl Yürütmeyi Test Eden Çok Dilli AI Ölçütü Macaron Geliştirildi

Araştırmacılar, yapay zeka modellerinin farklı kültürlerdeki mantık yürütme yeteneklerini değerlendiren yeni bir test sistemi geliştirdi. Macaron adlı bu sistem, 20 farklı ülke ve kültürden senaryolar içeren sorularla AI'ların sadece dil bilgisini değil, kültürel bağlamları da ne kadar anlayabildiğini ölçüyor. Sistem 20 dil ve lehçede toplam 12 bine yakın test sorusu içeriyor ve düşük kaynaklı diller olan Amharca, Yoruba ve Zulu gibi dilleri de kapsıyor. Test sonuçları, mevcut AI modellerinin kültürel bağlamları anlama konusunda hala geliştirilmesi gereken yönleri olduğunu gösteriyor.

Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar AI modellerinin çok dilli ve çok kültürlü ortamlardaki performansını değerlendiren yeni bir test sistemi geliştirdi. Macaron adı verilen bu sistem, mevcut testlerin eksikliklerine odaklanarak tasarlandı.

Geleneksel çok dilli AI testlerinde önemli bir sorun bulunuyor: Bu testler genellikle İngilizce merkezli senaryoları diğer dillere çeviriyor, dolayısıyla kültürel bağlamları göz ardı ediyor. Macaron ise bu soruna farklı bir yaklaşım getiriyor. Sistem, 7 farklı mantık yürütme türünü ve 22 kültürel boyutu kapsayan 100 dil-bağımsız şablon kullanıyor.

Bu kapsamlı test sisteminde, her kültürden yerel uzmanlar kendi dillerinde sorular hazırlıyor. Böylece her soru hem o kültürün özelliklerini yansıtıyor hem de belirli bir mantık yürütme becerisini ölçüyor. Sistem toplamda 11.862 test örneği içeriyor ve 20 farklı ülke ile kültürel bağlamı kapsıyor.

Macaron'un en dikkat çekici özelliklerinden biri, düşük kaynaklı dillere verdiği önem. Amharca, Yoruba, Zulu, Kırgızca ve çeşitli Arap lehçeleri gibi genellikle AI testlerinde yer almayan diller de sistem içinde bulunuyor.

21 farklı çok dilli AI modeli üzerinde yapılan ilk testlerde, mantık odaklı modeller yüzde 80,8 genel başarı oranıyla en iyi performansı gösterdi. İngilizce ve yerel diller arasındaki performans farkının da nispeten az olduğu gözlemlendi.