中文分词工具很是繁多,主要与你们分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。java
中文分词工具:python
1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。git
http://www.oschina.net/p/ikanalyzergithub
源码地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc算法
使用方式:下载IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包便可。dom
2、NLPIR 中文分词库(又名ICTCLAS2013)工具
示例(Java):http://my.oschina.net/u/944980/blog/132183spa
3、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具.net
http://www.oschina.net/p/jcsegblog
4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的
http://www.oschina.net/p/mmseg4j
5、Anjs 中文分词器
Python中文分词组件:
1、Genius是一个开源的Python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
http://www.oschina.net/p/genius-fc
2、Python中文分词组件“结巴”分词
https://github.com/fxsjy/jieba
安装说明:
代码对 Python 2/3 均兼容
写在最后:下一篇博客我会分享本身研究的其中两个中文分词工具,分别为jieba分词和IK Analyzer分词器。