菜鸟如何使用hanlp作分词的过程记录

菜鸟如何使用hanlp作分词的过程记录html

最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该仍是会像以前分享DKHadoop同样的方式吧。把整个学习的过程当中截图在配文字的方式搞一下。java

这两天也在看一些其余人分享的hanlp学习和使用分享的文章,后面看到的分享也会转载分享给你们。今天分享的这篇也是很早前别人分享的一篇如何用hanlp作分词的文章,新手入门级的能够看看!正则表达式

 

boss给了个作分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并很差,须要一遍一遍筛选【第一个标准筛选出80%的数据,而后制定第二个标准,继续筛选,而后制定第三个标准筛选,等等等等】eclipse

本身用了一下结巴分词,感受对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很好地分开机构名称。因而转而使用hanlp分词。maven

可是hanlp分词的缺点是只有在java上能够用,可是java一贯又是个人弱项。因此在这里写一篇博客从头到尾叙述一下怎么样使用hanlp。oop

并且,小胖胖把个人电脑锁在北师图书馆柜子里了。我工做没有电脑可用,因而使用小胖的电脑,也就是说,全部的基本变量都须要我本身来配来下,所以也至关因而从一张白纸到使用hanlp的过程。学习

第一步:下载一个jdk到openjdk官网去下一个,直接安装便可。测试

安装事后,要配置三个环境变量,分别是spa

一、JAVA_HOME:C:\Program Files\Java\jdk1.8.0_73;.net

二、CLASSPATH: 就是这个jdk打开以后里面的那个lib的目录;

三、PATH:就是jdk后面的bin目录;

配置完成以后,在Windows底下的cmd上面,输入java -version看看有没有反应便可判断是否正确安装jdk。

【我这里出现了个小问题,在胖胖的电脑里,不知道她以前安装过什么东西,自带了一个jre1.6 然而我安装的是jre1.8 在cmd里面报错,说找不到jre1.6 后来我看了网上的说法,说是也许你别的软件也会下载java环境,因此你可能有许多不一样的包,系统在寻找路径的时候,默认会根据你上面配置的环境变量里面找。所以,须要把我们最新下的那个环境变量放在一大堆环境变量的最前面,尝试便可。】

载了jdk安装成功以后,第二步,下载eclipse

到官网去找,记住,x86是32位,x64是64位,下载以后设定project的位置【好比我设在了D盘的根目录,结果发现不太好,可是已经改不了了。。教训】

安装成功以后,第三步,去下载hanlp的各类东西

方法1.maven方法,下载一个0配置便可。【可是我不会玩儿】

方法2:先下载hanlp-1.2.8.jar这个jar包【备注,目前hanlp版本已经发布到了portable-1.6.8

http://hanlp.com/

再下载data.zip这个数据包,能够选择,选择下载标准数据or迷你数据or所有数据。大小不一样。我下的是标准版的。40M

再下载hanlp.properties这个是一个以properties结尾的一个文件,我以前历来没见过,不过能够用txt打开。

第四步:把下载的这些东西导入到eclipse里面去,构建路径

一、把jar包导入到eclipse的lib目录下

http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

二、本身在src里面建立一个包,在包里面建立一个类。包会在我设置的根目录D:/下面,类名称首字母必须大写?【貌似不大写的话,会被否决】

三、把data包解压,而后放在一个本身喜欢的路径【个人路径是D://py/】而后,在hanlp.properties这个文件里,把root修改成data存放的上一级目录。

四、把hanlp.properties拖动到src这个目录下

 

而后试验了一个demo测试,发现报错,而后点击import import com.hankcs.hanlp.HanLP;而后run了一下程序

依然报错,发现是没有把properties那个文件导入到bin目录下,再次打开test0320,在那个bin目录下复制properties文件以后运行,成功了

转载自tianbwin2995 的博客

相关文章
相关标签/搜索