Arapça, günlük hayatta standart formundan çok yerel lehçelerin konuşulduğu karmaşık bir dil yapısına sahip. Milyonlarca Arap, evde ve sokakta standart Arapça yerine kendi bölgelerinin lehçelerini kullanıyor. Ancak mevcut makine çeviri sistemleri bu gerçekliği göz ardı ederek, çoğunlukla standart Arapça üzerinde eğitilmiş durumda.

Araştırmacılar bu soruna çözüm bulmak için Alexandria adlı kapsamlı bir veri seti geliştirdi. Bu topluluk tabanlı proje, 13 farklı Arap ülkesinden yerel konuşmacıların katkısıyla oluşturuldu ve sağlık, eğitim, tarım gibi hayati 11 alanda çeviri örnekleri içeriyor.

Alexandria'nın en dikkat çekici özelliği, sadece ülke bazında değil, şehir bazında bile lehçe farklılıklarını kaydetmesi. Bu ayrıntılı yaklaşım, daha önce hiç denenmemiş bir hassasiyetle yerel dil çeşitliliklerini belgeliyor. Veri seti ayrıca konuşmacıların cinsiyetini ve karşılıklı konuşma dinamiklerini de analiz ederek, sosyal faktörlerin dil kullanımına etkisini inceliyor.

107 bin konuşma turunu kapsayan bu kaynak, yapay zeka sistemlerinin Arap dünyasının gerçek dil çeşitliliğini anlamasına önemli katkı sağlayacak. Böylece teknoloji, milyonlarca insanın günlük konuşma diline daha yakın hale gelecek.