配置Hanlp天然语言处理进阶

 

中文分词java

中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每一个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启天然语言处理之旅,每一个工具包都是一个很是强大的算法集合,因此小编之后将花一些时间去看看里面源码如何。linux

下载jar、property和data文件算法

下载jar文件,(下载hanlp压缩包)解压以后得到jar和property文件以下:windows

其中property问配置文件,jar文件为外部引用文件。app

而后下载data文件:maven

【https://】pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)ide

解压压缩包以后就能获取data目录了。工具

一切就绪以后下面就是配置了。idea

配置hanlpspa

新建一个空项目,包括一个新建的java文件的test.java,

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

6.    }

7.}  

目录结构以下图:

若是是在linux中的话,你能够将property文件放在classpath中,windows中也能够,配置环境变量,将property文件的绝对路径加上就能够了,而后运行一下这个java文件:

你会发现以下错误

 

1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2.严重: 没有找到hanlp.properties,可能会致使找不到data

3.========Tips========

4.请将hanlp.properties放在下列目录:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web项目则请放到下列目录:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11.而且编辑root=PARENT/path/to/your/data

 

而后将property放到相应的目录就能够了,注意property配置只须要修改root的配置就好了。

 

1.本配置文件中的路径的根目录,根目录+其余路径=绝对路径Windows用户请注意,路径分隔符统一使用/

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就好比个人解压后的data文件夹是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目录下的那我就改这个就能够了,其他的配置不用修改

 

运行成功以下图:

---------------------

做者:学zaza

相关文章
相关标签/搜索