天然语言处理工具pyhanlp分词与词性标注

时间 2019-11-07

原文原文链接

Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间过久记不太清楚了。如下文章是分享自“baiziyu”所写（小部份内容有修改），供你们学习参考之用。java

简介git

pyhanlp是HanLP的Python接口。所以后续全部关于pyhanlp的文章中也会写成HanLP。HanLP是彻底用Java自实现的天然语言处理工具包。特色是彻底用Java实现不引入第三方工具包。彻底开源。中文的开源工具能作到这么完整的大概只有HanLP。包括了词法分析、句法分析、分类、聚类、关键词抽取等常见NLP应用任务。而且github上问题回答快，做者非常认真的解决你们提出的问题。虽然用Java实现，HanLP也提供了Python接口。github

简单的安装过程，请先确保安装了anaconda3算法

# 安装命令数据结构

$ pip install pyhanlp函数

# 更新到最新代码包和数据包工具

$ hanlp update学习

分词与词性标注优化

示例spa

In [1]: from pyhanlp import *

In [5]: print(HanLP.segment("你好，欢迎使用HanLP汉语处理包！接下来请从其余Demo中

...: 体验HanLP丰富的功能~"))

[你好/vl, ，/w, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, ！/w, 接下来/vl, 请/v, 从/p, 其余/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]

In [11]: for word in word_li:

...: print(word.word, word.nature)

...:

你好 vl

， w

欢迎 v

使用 v

HanLP nx

汉语 gi

处理 vn

包 v

！ w

接下来 vl

请 v

从 p

其余 rzv

Demo nx

中 f

体验 v

HanLP nx

丰富 a

的 ude1

功能 n

~ nx

关于HanLP.segment的说明。内存要求：120MB以上，标准数据包（35万核心词库+默认用户词典）。HanLP对词典的数据结构进行了长期的优化，哪怕HanLP的词典上百兆也无需担忧。HanLP.segment是一个工厂函数，它是对StandardTokenizer的封装。当前StandardTokenizer使用的是viterbi最短路分词。viterbi分词器是目前效率和效果的最佳平衡。该函数的详细代码在github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/seg/Viterbi/ViterbiSegment.java。分词大体功能有：首先生成词网和词图便可以获得粗分词网，经维特比算法找最短路径和人工干预分词后便可获得粗分结果。以后根据配置能够进行数字识别，人名识别，译名识别，地名识别，机构名识别，若是是索引分词则进行全切分分词，词性标注。

HanLP的com.hankcs.hanlp.tokenizer包中封装了不少开箱即用的分词器，可是不是全部的分词器都能在Python接口中直接使用。这些分词器有BasicTokenizer这是NGram分词器，不识别命名实体，不能使用用户词典。SpeedTokenizer这是最长匹配分词器。NotionalTokenizer这是实词分词器。StandardTokenizer当前效率和效果最佳的分词器。NLPTokenizer更精确的中文分词器。IndexTokenizer适用于信息检索的分词器。

后续将要介绍的内容是文本的向量表示，这里边有一部份内容是跟特征抽取重合的。好了，今天的内容就到这里。