一、hanlp简介java
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并彻底开源,目标是普及天然语言处理在生产环境中的应用。HanLP具有功能完善、性能高效、架构清晰、语料时新、可自定义的特色。python
开源网址:HanLP: Han Language Processing算法
但因为hanlp是用java来实现的,要在python中使用hanlp,只能经过调用pyhanlp这个包来。架构
可是pyhanlp里面有一些功能仍然不支持python直接调用,好比汉字转拼音,这时候就须要从python中启动jvm并指定Hanlp的jar路径来使用其余功能了。jvm
2、下载并配置文件工具
(1)从开源网址中下载jar、data、hanlp.properties并修改配置文件:性能
一、下载:data.zipspa
下载后解压到任意目录,接下来经过配置文件hanlp.properties告诉HanLP数据包的位置。blog
dataip
│
├─dictionary
└─model
用户能够自行增删替换,若是不须要句法分析等功能的话,随时能够删除model文件夹。
3、下载jar和配置文件:hanlp-release.zip
(1)配置文件hanlp.properties的做用是告诉HanLP数据包的位置,只需修改第一行为data的父目录便可:
root=D:/JavaProjects/HanLP/
好比data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。
(2)从python中启动jvm以及添加jar包路径
其中-Djava.class.path是用来添加jar包到classpath中,而后用startJVM来启动jvm。
startJVM第一个参数是系统内的jvm位置,第二个为*arg参数,此处放置classpath。
以上获得的是java的ArrayList类型,须要将他装换为string类型:
结果以下:
4、最后记得关闭JVM
--------------------
做者:Juanly Jack