004-基于统计的翻译系统

双语数据预处理 学习目标:了解和学习开发汉英双语数据预处理模块。 双语数据预处理是统计机器翻译系统构建的第一步,为词对齐处理提供分词后的 双语数据。预处理的工作本质上就是双语数据的分词处理,与传统分词不同的一 点在于需要对一些特定类型词汇进行泛化处理,如数字词汇“123.45”泛化为 “$number”来代替原文。本讲中以汉英双语数据为处理内容。 本讲学习内容:  中文分词预处理 采用传统基于词
相关文章
相关标签/搜索