Anconda3使用gensim训练中文维基百科语料库

首先须要下载中文语料,下载地址为:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2python 下载完中文语料后,须要将XML文件转化为TEXT文件,用python3.x版本可能会出现bytes与str的问题,笔者用如下代码亲测有效json # -*- coding:utf-8 -*-
相关文章
相关标签/搜索