使用word2vec训练wiki中文语料

实验环境:Ubuntu + eclipse + python3.5python 首先(1)下载最新中文wiki语料库:正则表达式 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2eclipse (2)因为下载以后,语料库上的编码格式会有不一样,所以须要进行处理一下:借鉴了这篇文章。
相关文章
相关标签/搜索