中文分词≠天然语言处理!html
中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等经常使用任务,提供了丰富的API。java
不一样于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,作到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。不管是移动设备仍是大型集群,都能得到良好的体验。python
不一样于市面上的商业工具,HanLP提供训练模块,能够在用户的语料上训练模型并替换默认模型,以适应不一样的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。web
HanLP但愿兼顾学术界的精准与工业界的效率,在二者之间取一个平衡,真正将天然语言处理普及到生产环境中去。数据结构
咱们使用的pyhanlp是用python包装了HanLp的java接口。工具
pip安装优化
sudo pip3 install pyhanlp
第一次import pyhanlp会下载一个比较大的数据集,须要耐心等待下,后面再import就不会有了。spa
from pyhanlp import *
详情请见pyhanlp官方文档code
分词使用htm
from pyhanlp import * print(HanLP.segment("今天开心了吗?")) >>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]
依存分析使用
from pyhanlp import * print(HanLP.parseDependency("今天开心了吗?")) >>> 1 今天 今天 nt t _ 2 状中结构 _ _ >>> 2 开心 开心 a a _ 0 核心关系 _ _ >>> 3 了 了 e y _ 2 右附加关系 _ _ >>> 4 吗 吗 e y _ 2 右附加关系 _ _ >>> 5 ? ? wp w _ 2 标点符号 _ _
若是你们看不太清楚上面的输出,pyhanlp提供了一个很好的展现交付界面,只要一句命令就能启动一个web服务
hanlp serve
登陆http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是否是很直观。这个网页上还有安装说明、源码连接、文档连接、常见的问题(FAQ)。