天然语言处理—资源连接(持续更新)

1 — 语言处理综合工具包(暂未完善)

工具包名 支持语言 受欢迎程度 简介 我的使用评价
HanLP
pyhanlp
中文 1.3W star HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并彻底开源,目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。
NLTK 多语言 7.8K star NLTK是一个被普遍使用的高效的Python构建的平台,用来处理人类天然语言数据。它提供了易于使用的接口,经过这些接口能够访问超过50个语料库和词汇资源(如WordNet)。
LTP语言技术平台 中文 2.2K star LTP提供了一系列中文天然语言处理工具,用户可使用这些工具对于中文文本进行分词、词性标注、句法分析等等工做。
Stanford CoreNLP 多语言 6.3K star 斯坦福CoreNLP是一个Java天然语言分析库,它集成了全部的天然语言处理工具,包括词性的终端(POS)标注器,命名实体识别(NER),分析器,对指代消解系统,以及情感分析工具,并提供英语分析的模型文件。
spaCy 多语言,中文支持有限 1.34W star spaCy 是一个Python天然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具备工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提升相关模块的性能,这个区别于学术性质更浓的Python NLTK,所以具备了业界应用的实际价值。
gensim 多语言 9.3K star Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,
支持流式训练,并提供了诸如类似度计算,信息检索等一些经常使用任务的API接口

2 — 分词

工具包 官方简介 我的评测
jieba结巴中文分词 “结巴”中文分词:作最好的 Python 中文分词组件 一、使用人数多(github star1.8万),速度快;
二、虽然准确率和召回率较其余新出分词工具备差距,可是各方面的综合效果仍是不错的
pkuseg北京大学开源分词工具 pkuseg简单易用,支持细分领域分词,有效提高了分词准确度。 一、会自动去除空格等空字符;
二、分词粒度较细(例如“北京  工业   大学”);
三、速度较jieba慢不少(粗略评测速度是jieba的约1/5)
HanLP HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并彻底开源,目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。 一、使用人数多(github star1.2万),速度约jieba的1/3;
二、综合处理工具包

3 —词向量

资源名称 简介 使用评估
Chinese Word Vectors 中文词向量 100+ Chinese Word Vectors 上百种预训练中文词向量(我的只使用了mixed-large) 一、词汇量128万, 300维度,大小3.4G;
二、词长度分布状况(1:2:3:4:其余):1.4:27:32:11:28.6;
腾讯高质量词向量 腾讯AI Lab这次公开的中文词向量数据包含800多万中文词汇,其中每一个词对应一个200维的向量 一、词汇量882万,200维度,大小15.5G;
二、词长度分布状况(1:2:3:4:其余):0.25:23:23:22.4:31.35;
三、缺乏中文标点逗号等部分标点字符的支持。

5 — 语料库

  4.1 实体数据集
数据集 数据集描述
MSRA数据集 30个实体属性,4.6万行,126.5万词,11.8万个实体
相关文章
相关标签/搜索