使用word2vec训练中文词向量

时间 2019-12-06

标签使用 word2vec word vec 训练文词向量栏目 Microsoft Office 繁體版

原文原文链接

训练过程模型：gensim工具包word2vec模型，安装使用简单，训练速度快语料：百度百科500万词条+维基百科30万词条+1.1万条领域数据分词：jieba分词,自定义词典加入行业词,去除停用词硬件：8核16g虚拟机数据预处理python 维基百科数据量不够大，百度百科数据量较全面，内容上面百度百科大陆相关的信息比较全面，港澳台和国外相关信息维基百科的内容比较详细，所以训练时将两个语

>>阅读原文<<