中文分词工具

中文分词工具很是繁多,主要与你们分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。java

中文分词工具:python

1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。git

http://www.oschina.net/p/ikanalyzergithub

源码地址:http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc算法

使用方式:下载IK Analyzer(http://pan.baidu.com/s/1hssEdog),在Java工程中引入jar包便可。dom

2、NLPIR 中文分词库(又名ICTCLAS2013)工具

示例(Java):http://my.oschina.net/u/944980/blog/132183spa

3、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具.net

http://www.oschina.net/p/jcsegblog

4、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/  )实现的

http://www.oschina.net/p/mmseg4j

5、Anjs 中文分词器

http://www.oschina.net/p/ansj

Python中文分词组件:

1、Genius是一个开源的Python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。

http://www.oschina.net/p/genius-fc

2、Python中文分词组件“结巴”分词

https://github.com/fxsjy/jieba

安装说明:

代码对 Python 2/3 均兼容

  • 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba
  • 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
  • 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
  • 经过 import jieba 来引用

写在最后:下一篇博客我会分享本身研究的其中两个中文分词工具,分别为jieba分词和IK Analyzer分词器。

相关文章
相关标签/搜索