Makine çevirisi ve çok dilli doğal dil işleme alanında kalite değerlendirmesi kritik bir süreçtir. İnsan değerlendirmesi en güvenilir yöntem olmasına rağmen, mevcut araçların karmaşık yapısı ve yüksek operasyonel maliyetleri nedeniyle araştırmacılar genellikle otomatik metrikleri tercih etmektedir.
Yeni geliştirilen Pearmut platformu, bu soruna köklü bir çözüm getiriyor. Hafif yapısına rağmen zengin özelliklere sahip olan sistem, uçtan uca insan değerlendirmesini otomatik değerlendirme kadar basit hale getiriyor. Platform, özellikle makine çevirisi odaklı olmak üzere çok dilli görevlerin değerlendirilmesinde yaygın giriş engellerini ortadan kaldırıyor.
Pearmut, DA (Direct Assessment), ESA (Error Severity Assessment) ve MQM (Multidimensional Quality Metrics) gibi endüstri standardı değerlendirme protokollerini destekliyor. Sistem ayrıca yeni protokollerin eklenmesine olanak tanıyan genişletilebilir bir yapıya sahip.
Platformun dikkat çekici özellikleri arasında belge düzeyinde bağlam analizi, mutlak ve karşılaştırmalı değerlendirme seçenekleri, dikkat kontrolleri ve ESAAI ön-açıklamaları bulunuyor. Hem statik hem de dinamik atama stratejilerini destekleyen sistem, güvenilir insan değerlendirmesini model geliştirme süreçlerinin pratik ve rutin bir parçası haline getirmeyi hedefliyor.