Çeviri Kalitesini Kim Denetliyor? Yapay Zeka Metrikleri İnsan Yargısına Karşı

Makine çevirisi sistemlerinin performansını ölçen otomatik değerlendirme metrikleri, farklı alanlarda ne kadar güvenilir? Araştırmacılar, 18.8 bin insan anotasyonu içeren kapsamlı bir veri setiyle bu soruyu yanıtlamaya çalıştı. Çalışma, otomatik metriklerin cümle düzeyinde alan değişikliklerine karşı şaşırtıcı derecede dayanıklı göründüğünü, ancak insan değerlendirmecilerin farklı alanlarda tutarsız davrandığını ortaya koyuyor. Bu bulgular, yapay zeka destekli çeviri sistemlerinin geliştirilmesinde kullanılan değerlendirme yöntemlerinin yeniden gözden geçirilmesi gerektiğini işaret ediyor.

Makine çevirisi teknolojisinin gelişiminde otomatik değerlendirme metrikleri kritik bir rol oynuyor, ancak bu metriklerin farklı alanlardaki güvenilirliği şimdiye kadar belirsizliğini koruyordu. Araştırmacılar bu önemli soruya yanıt bulmak için kapsamlı bir çalışma gerçekleştirdi.

Çoğu değerlendirme metriği, Makine Çevirisi Çalıştayı (WMT) kıyaslamaları üzerinde geliştirildiği için, görülmemiş alanlardaki performansları konusunda endişeler bulunuyordu. Önceki çalışmalar farklı çeviri sistemleri, anotasyon yapanlar veya değerlendirme koşulları kullandığından, alan etkilerini insan anotasyon gürültüsünden ayırt etmek zorlaşıyordu.

Bu sorunu çözmek için araştırmacılar, Cross-Domain Error-Span-Annotation (CD-ESA) adlı sistematik bir veri seti oluşturdu. Bu veri seti, üç dil çifti arasında 18.8 bin insan hata aralığı anotasyonu içeriyor. Çalışmada aynı altı çeviri sistemi, bilinen haber alanı ve bilinmeyen iki teknik alan üzerinde değerlendirildi.

Bulgular oldukça ilginç: Otomatik metriklerin cümle düzeyinde alan değişikliklerine karşı beklenenden daha dayanıklı olduğu görülürken, insan değerlendirmecilerin farklı alanlarda tutarsız davranış sergiledikleri tespit edildi. Bu sonuçlar, makine çevirisi sistemlerinin değerlendirilmesinde kullanılan mevcut yöntemlerin yeniden düşünülmesi gerektiğini gösteriyor.

Çeviri Kalitesini Kim Denetliyor? Yapay Zeka Metrikleri İnsan Yargısına Karşı

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor