这篇文章主要分享的是hanlp天然语言处理源码的下载,数据集的下载,以及将让源代码中的demo可以跑通。Hanlp安装包的下载以及安装其实以前就已经有过度享了。本篇文章主要仍是备忘之用,同时算是给新手朋友的一些参考吧!java
不过在此以前先推荐两本书给想要学习中文天然语言处理的朋友,分别是《NLP汉语天然语言处理原理与实战》,里面介绍了汉语天然语言处理的相关技术,还有一些源码的解读;另外一本是《python天然语言处理》。python
下面就进入到本篇的正题,其实只须要下载源代码,下载字典和模型数据文件、下载配置文件,而且对配置文件稍做修改,而后再使用IDE打开源代码,就能够运行了,总的来讲整个过程其实并不复杂。源代码、字典以及模型、配置文件的下载你们能够到GitHub上下载。git
网页中提供了详细的说明,其实按照说明来就能够,下载之后将字典和模型文件解压到一个目录,建议放在工程名目录下:github
data中就是模型文件和字典数据文件:ide
经过github提供的源代码下载连接下载下来的文件不包含hanlp.properties配置文件,这是你须要下载一个release版本的代码,解压之后,里面有一个hanlp.properties文件工具
将这个文件分别拷贝到解压之后的源代码target/classes和target-classes目录下学习
最后用ide打开源代码,我使用的ide工具是IDEA(Intellij),其余ide的操做应该大同小异,固然配置文件也许只须要一份就够了,不须要两个目录都拷贝,我这里没有验证,为保险起见,两个目录下都拷贝一份,读者能够试验一下,我这里主要目的是为了能跑通。blog
上述步骤完成以后,打开src/test/java/com.hankcs/demo下的demo,就能够跑出结果了,接下来,就顺藤摸瓜去读源代码吧get