使用word2vec训练中文词向量

训练过程 模型:gensim工具包word2vec模型,安装使用简单,训练速度快 语料:百度百科500万词条+维基百科30万词条+1.1万条领域数据 分词:jieba分词,自定义词典加入行业词,去除停用词 硬件:8核16g虚拟机 数据预处理python 维基百科数据量不够大,百度百科数据量较全面,内容上面百度百科大陆相关的信息比较全面,港澳台和国外相关信息维基百科的内容比较详细,所以训练时将两个语
相关文章
相关标签/搜索