推荐：腾讯开源的词向量精简版本下载

时间 2021-01-24

标签 git github 服务器 ide 学习测试翻译 code orm blog 栏目腾讯繁體版

原文原文链接

腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据，该数据包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提升，为对话回复质量预测和医疗实体识别等天然语言处理方向的业务应用带来显著的效能提高。可是有一个很大问题，就是词向量过大，约16g，用普通服务器读取词向量须要半小时。通常用户并不须要太大的词向量，为方便用户，本文搜集了腾讯原版词向量精简版本，并提供各类大小版本的词向量下载。git

有关词向量和嵌入技术请看这篇文章（图解word2vec（原文翻译））github

腾讯AI Lab开源大规模高质量中文词向量数据简介：服务器

https://cloud.tencent.com/developer/article/1356164ide

原版腾讯词向量下载：学习

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz （6.31g，解压约16g，文末提供百度云下载）测试

如何使用

不少模型须要测试，建议初次测试的时候使用稍小的词向量版本，好比70000个词的版本（133mb），最后再使用原版800万个词的版本，这样能够节省不少实验时间。不少时候，70000个词的词向量已经能够知足要求了。翻译

读取模型code

from gensim.models
import KeyedVectors

model
= KeyedVectors.load_word2vec_format("50-small.txt")

使用模型orm

model.most_similar(positive=['女',
'国王'],
negative=['男'],
topn=1)

model.doesnt_match("上海 成都 广州 北京".split(" "))

model.similarity('女人',
'男人')

model.most_similar('特朗普',topn=10)

深度学习模式示例

使用LSTM模型，根据豆瓣评论，预测打分。blog

首先下载豆瓣的数据

豆瓣评论数据149M （文末提供下载）

而后下载库对应的分词包。（文末提供下载）
使用效果

加载70000字典前

加载70000字典后

代码文件见

Use Tencent Word Embeddings with douban datasets.ipynb（文末提供下载）

参考：

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL （这位小哥搜集的，但愿star下）

https://cloud.tencent.com/developer/article/1356164

总结和下载

腾讯AI Lab 开源的中文词向量数据，包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提升，可是有一个很大问题，就是词向量过大，约15g，用普通服务器读取词向量须要半小时。通常用户并不须要太大的词向量，为方便用户，本文搜集了腾讯原版词向量精简版本，并提供各类大小版本的词向量下载。并提供各类大小版本的词向量下载。

词向量及相关资料下载：

根目录：

5000-small.txt 这个有5000词，能够下下来玩玩
45000-small.txt 这个有4.5w的词，已经能解决不少问题了
70000-small.txt 7w词 133MB
100000-small.txt 10w词 190MB
- 500000-small.txt 50w词 953MB
1000000-small.txt 100w词 1.9GB
- 2000000-small.txt 200w词 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量（6.31g），解压后16g

code文件夹

doubanmovieshortcomments.zip豆瓣评论数据149M
分词文件（如：8000000-dict.txt等）
Use Tencent Word Embeddings with douban datasets.ipynb（测试代码）