Makine çevirisi teknolojisinin gelişiminde otomatik değerlendirme metrikleri kritik bir rol oynuyor, ancak bu metriklerin farklı alanlardaki güvenilirliği şimdiye kadar belirsizliğini koruyordu. Araştırmacılar bu önemli soruya yanıt bulmak için kapsamlı bir çalışma gerçekleştirdi.
Çoğu değerlendirme metriği, Makine Çevirisi Çalıştayı (WMT) kıyaslamaları üzerinde geliştirildiği için, görülmemiş alanlardaki performansları konusunda endişeler bulunuyordu. Önceki çalışmalar farklı çeviri sistemleri, anotasyon yapanlar veya değerlendirme koşulları kullandığından, alan etkilerini insan anotasyon gürültüsünden ayırt etmek zorlaşıyordu.
Bu sorunu çözmek için araştırmacılar, Cross-Domain Error-Span-Annotation (CD-ESA) adlı sistematik bir veri seti oluşturdu. Bu veri seti, üç dil çifti arasında 18.8 bin insan hata aralığı anotasyonu içeriyor. Çalışmada aynı altı çeviri sistemi, bilinen haber alanı ve bilinmeyen iki teknik alan üzerinde değerlendirildi.
Bulgular oldukça ilginç: Otomatik metriklerin cümle düzeyinde alan değişikliklerine karşı beklenenden daha dayanıklı olduğu görülürken, insan değerlendirmecilerin farklı alanlarda tutarsız davranış sergiledikleri tespit edildi. Bu sonuçlar, makine çevirisi sistemlerinin değerlendirilmesinde kullanılan mevcut yöntemlerin yeniden düşünülmesi gerektiğini gösteriyor.