部分经常使用分词工具使用整理

时间 2019-11-19

标签部分经常使用分词工具整理栏目搜索引擎繁體版

原文原文链接

如下分词工具均能在Python环境中直接调用（排名不分前后）。python

一、jieba（结巴分词）无偿使用算法

二、HanLP（汉语言处理包）无偿使用架构

三、SnowNLP（中文的类库）无偿使用app

四、FoolNLTK（中文处理工具包）无偿使用工具

五、Jiagu（甲骨NLP）无偿使用性能

六、pyltp（哈工大语言云）商用须要付费编码

七、THULAC（清华中文词法分析工具包）商用须要付费操作系统

八、NLPIR（汉语分词系统）付费使用ip

一、jieba（结巴分词）开发

“结巴”中文分词：作最好的 Python 中文分词组件。

项目Github地址：jieba

安装：

pip install jieba

使用：

import jieba

jieba.initialize()

text = '化妆和服装'

words = jieba.cut(text)

words = list(words)

print(words)

二、HanLP（汉语言处理包）

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并彻底开源，目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。

项目Github地址：pyhanlp

安装：

pip install pyhanlp

使用：

import pyhanlp

text = '化妆和服装'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

三、SnowNLP（中文的类库）

SnowNLP是一个python写的类库，能够方便的处理中文文本内容，是受到了TextBlob的启发而写的，因为如今大部分的天然语言处理库基本都是针对英文的，因而写了一个方便处理中文的类库，而且和TextBlob不一样的是，这里没有用NLTK，全部的算法都是本身实现的，而且自带了一些训练好的字典。

项目Github地址：snownlp

安装：

pip install snownlp

使用：

import snownlp

text = '化妆和服装'

words = snownlp.SnowNLP(text).words

print(words)

四、FoolNLTK（中文处理工具包）

可能不是最快的开源中文分词，但极可能是最准的开源中文分词。

项目Github地址：FoolNLTK

安装：

pip install foolnltk

使用：

import fool

text = '化妆和服装'

words = fool.cut(text)

print(words)

五、Jiagu（甲骨NLP）

基于BiLSTM模型，使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等经常使用天然语言处理功能。参考了各大工具优缺点制做，将Jiagu回馈给你们。

项目Github地址：jiagu

安装：

pip3 install jiagu

使用：

import jiagu

jiagu.init()

text = '化妆和服装'

words = jiagu.seg(text)

print(words)

六、pyltp（哈工大语言云）

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

项目Github地址：pyltp，3.4模型下载连接：网盘

安装：

pip install pyltp

使用：

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径

text = '化妆和服装'

words = segmentor.segment(text)

words = list(words)

print(words)

七、THULAC（清华中文词法分析工具包）

THULAC（THU Lexical Analyzer for Chinese）由清华大学天然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具备中文分词和词性标注功能。

项目Github地址：THULAC-Python

安装：

pip install thulac

使用：

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妆和服装'

words = thu.cut(text, text=True).split()

print(words)

NLPIR（汉语分词系统）

主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操做系统、多种开发语言与平台。

项目Github地址：pynlpir

安装：

pip install pynlpir

下载证书覆盖到安装目录，NLPIR.user 例如安装目录：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：

import pynlpir

pynlpir.open()

text = '化妆和服装'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()