工具包名 | 支持语言 | 受欢迎程度 | 简介 | 我的使用评价 |
---|---|---|---|---|
HanLP pyhanlp |
中文 | 1.3W star | HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并彻底开源,目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。 | |
NLTK | 多语言 | 7.8K star | NLTK是一个被普遍使用的高效的Python构建的平台,用来处理人类天然语言数据。它提供了易于使用的接口,经过这些接口能够访问超过50个语料库和词汇资源(如WordNet)。 | |
LTP语言技术平台 | 中文 | 2.2K star | LTP提供了一系列中文天然语言处理工具,用户可使用这些工具对于中文文本进行分词、词性标注、句法分析等等工做。 | |
Stanford CoreNLP | 多语言 | 6.3K star | 斯坦福CoreNLP是一个Java天然语言分析库,它集成了全部的天然语言处理工具,包括词性的终端(POS)标注器,命名实体识别(NER),分析器,对指代消解系统,以及情感分析工具,并提供英语分析的模型文件。 | |
spaCy | 多语言,中文支持有限 | 1.34W star | spaCy 是一个Python天然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具备工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提升相关模块的性能,这个区别于学术性质更浓的Python NLTK,所以具备了业界应用的实际价值。 | |
gensim | 多语言 | 9.3K star | Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, 支持流式训练,并提供了诸如类似度计算,信息检索等一些经常使用任务的API接口 |
工具包 | 官方简介 | 我的评测 |
---|---|---|
jieba结巴中文分词 | “结巴”中文分词:作最好的 Python 中文分词组件 | 一、使用人数多(github star1.8万),速度快; 二、虽然准确率和召回率较其余新出分词工具备差距,可是各方面的综合效果仍是不错的 |
pkuseg北京大学开源分词工具 | pkuseg简单易用,支持细分领域分词,有效提高了分词准确度。 | 一、会自动去除空格等空字符; 二、分词粒度较细(例如“北京 工业 大学”); 三、速度较jieba慢不少(粗略评测速度是jieba的约1/5) |
HanLP | HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并彻底开源,目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。 | 一、使用人数多(github star1.2万),速度约jieba的1/3; 二、综合处理工具包 |
资源名称 | 简介 | 使用评估 |
---|---|---|
Chinese Word Vectors 中文词向量 | 100+ Chinese Word Vectors 上百种预训练中文词向量(我的只使用了mixed-large) | 一、词汇量128万, 300维度,大小3.4G; 二、词长度分布状况(1:2:3:4:其余):1.4:27:32:11:28.6; |
腾讯高质量词向量 | 腾讯AI Lab这次公开的中文词向量数据包含800多万中文词汇,其中每一个词对应一个200维的向量 | 一、词汇量882万,200维度,大小15.5G; 二、词长度分布状况(1:2:3:4:其余):0.25:23:23:22.4:31.35; 三、缺乏中文标点逗号等部分标点字符的支持。 |
数据集 | 数据集描述 |
---|---|
MSRA数据集 | 30个实体属性,4.6万行,126.5万词,11.8万个实体 |