阿里巴巴WMT18平行语料过滤 Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

https://zhuanlan.zhihu.com/p/51843485   一、简介 在评估平行语料库的质量时,研究语料库的三个特征,即1)语言/翻译质量,2)单语质量,3)语料库多样性。 基于规则和基于模型的方法都适用于对并行句子对进行评分。 语料库清理任务分为三个部分: 高质量的并行句子对应该具有,其目标句子精确地转换为源句子的特性,反之亦然。通过量化翻译质量(也称为双语分数)和句子对的准
相关文章
相关标签/搜索