Wiki中文语料处理-python

昨天弄了一天的Wiki中文语料处理,发现有一点很重要,数据的完整性校验。 首先是最开始的压缩文件,下载完后要检验是否完整的方法就是解压是否可以成功,成功说明数据至少是完整的。接着是提取出来的txt文档,首先在python环境下要注意文档的编码格式,UTF-8和GBK差异仍是有的。接着对于在python中打开文件的时候代码 output = open(outp,'w',encoding="utf-8
相关文章
相关标签/搜索