Makine çevirisinde dil ve kültür hatalarını yakalayan yeni değerlendirme sistemi

Araştırmacılar, mevcut makine çevirisi değerlendirme sistemlerinin yetersizliklerini gidermek için LQM (Dilbilimsel Temelli Çok Boyutlu Kalite Metrikleri) adlı yeni bir sistem geliştirdi. Özellikle Arapça gibi farklı lehçelere sahip dillerde, geleneksel değerlendirme yöntemleri dil çeşitliliği, kültürel uygunluk ve pragmatik hatalarını yakalayamıyor. LQM, sosyodilbilim, pragmatik, semantik, morfosentaks, yazım ve grafik olmak üzere altı dilbilimsel seviyede hiyerarşik bir hata sınıflandırması sunuyor. Sistem, yedi farklı Arap lehçesinden 3.850 cümlelik paralel korpus kullanılarak test edildi. Bu gelişme, makine çevirisinin sadece kelime doğruluğunu değil, kültürel ve dilsel nüansları da değerlendirmesine olanak sağlayarak, özellikle çok lehçeli diller için çeviri kalitesinin artırılmasında önemli bir adım.

Makine çevirisi teknolojisinde önemli bir gelişme yaşanıyor. Araştırmacılar, mevcut değerlendirme sistemlerinin eksikliklerini gidermek amacıyla LQM (Linguistically Motivated Multidimensional Quality Metrics) adlı yeni bir değerlendirme çerçevesi geliştirdi.

Günümüzde kullanılan makine çevirisi değerlendirme sistemleri genellikle dil-bağımsız yaklaşımlar benimsiyor. Ancak bu sistemler, özellikle Arapça gibi birden fazla lehçeye sahip dillerde ortaya çıkan kültürel ve dilsel nüansları yakalamakta yetersiz kalıyor. Çeviri hatalarının yalnızca yüzeysel form farklılıklarından değil, dil çeşitliliği uyumsuzlukları, içerik kapsama eksiklikleri ve pragmatik uygunsuzluklardan da kaynaklandığı görülüyor.

LQM sistemi, bu sorunu altı farklı dilbilimsel seviyede hiyerarşik bir hata taksonomisi oluşturarak çözmeyi hedefliyor: sosyodilbilim, pragmatik, semantik, morfosentaks, yazım kuralları ve grafik özellikler. Bu yaklaşım, çeviri hatalarını çok daha detaylı ve sistematik bir şekilde analiz etmeye olanak tanıyor.

Araştırmacılar, sistemlerini test etmek için yedi farklı Arap lehçesinden (Mısır, Birleşik Arap Emirlikleri, Ürdün, Moritanya, Fas, Filistin ve Yemen) toplam 3.850 cümlelik çift yönlü paralel korpus oluşturdu. Her lehçeden 550 cümle içeren bu veri seti, günlük konuşma dilinden ve kültürel açıdan zengin içeriklerden derlenmiş.

Bu gelişme, makine çevirisinin sadece kelime doğruluğunu değil, aynı zamanda kültürel bağlamı ve dilsel incelikleri de değerlendirmesine imkan sağlayarak, özellikle çok lehçeli diller için çeviri kalitesinin artırılmasında kritik bir adım oluşturuyor.