腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提升,为对话回复质量预测和医疗实体识别等天然语言处理方向的业务应用带来显著的效能提高。可是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量须要半小时。通常用户并不须要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各类大小版本的词向量下载。git
有关词向量和嵌入技术请看这篇文章(图解word2vec(原文翻译))github
腾讯AI Lab开源大规模高质量中文词向量数据简介:服务器
https://cloud.tencent.com/developer/article/1356164ide
原版腾讯词向量下载:学习
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载)测试
不少模型须要测试,建议初次测试的时候使用稍小的词向量版本,好比70000个词的版本(133mb),最后再使用原版800万个词的版本,这样能够节省不少实验时间。不少时候,70000个词的词向量已经能够知足要求了。翻译
读取模型code
from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format("50-small.txt")
使用模型orm
model.most_similar(positive=['女', '国王'], negative=['男'], topn=1) model.doesnt_match("上海 成都 广州 北京".split(" ")) model.similarity('女人', '男人') model.most_similar('特朗普',topn=10)
使用LSTM模型,根据豆瓣评论,预测打分。blog
豆瓣评论数据149M (文末提供下载)
而后下载库对应的分词包。(文末提供下载)
加载70000字典前
加载70000字典后
Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下载)
https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (这位小哥搜集的,但愿star下)
https://cloud.tencent.com/developer/article/1356164
腾讯AI Lab 开源的中文词向量数据,包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提升,可是有一个很大问题,就是词向量过大,约15g,用普通服务器读取词向量须要半小时。通常用户并不须要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各类大小版本的词向量下载。并提供各类大小版本的词向量下载。
词向量及相关资料下载:
根目录:
5000-small.txt 这个有5000词,能够下下来玩玩
45000-small.txt 这个有4.5w的词,已经能解决不少问题了
70000-small.txt 7w词 133MB
100000-small.txt 10w词 190MB
1000000-small.txt 100w词 1.9GB
code文件夹
doubanmovieshortcomments.zip豆瓣评论数据149M
分词文件(如:8000000-dict.txt等)