ccmt2019-0512-使用bpe+word2vec 进行语料的预处理

接下来就是使用bpe对语料进行编码,以解决部分的登陆词。python 首先,把全部的英文语料汇总起来放在同一个文件en.txt,把全部对应的中文平行语料也放在一块儿获得cn.txt。web 注意合并后须要检查下这两个文件各个句子之间是否对齐。app 而后使用subword-nmt工具进行bpe的编码。svg __author__ = 'jmh081701' import os director
相关文章
相关标签/搜索