Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。java
变动日志git
分词是作 NLP 相关工做,很是基础的一项功能。github
jieba-analysis 做为一款很是受欢迎的分词实现,我的实现的 opencc4j 以前一直使用其做为分词。算法
可是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。api
(1)有不少功能没法指定关闭,好比 HMM 对于繁简体转换是无用的,由于繁体词是固定的,不须要预测。数组
(2)最新版本的词性等功能好像也被移除了,可是这些都是我的很是须要的。性能优化
(3)对于中文繁体分词支持不友好。多线程
因此从新实现了一遍,但愿实现一套更加灵活,更多特性的分词框架。框架
并且 jieba-analysis 的更新彷佛停滞了,我的的实现方式差别较大,因此创建了全新的项目。maven
面向用户的极简静态 api 设计
面向开发者 fluent-api 设计,让配置更加优雅灵活
详细的中文代码注释,便于源码阅读
基于 DFA 实现的高性能分词
基于 HMM 的新词预测
支持不一样的分词模式
支持全角半角/英文大小写/中文繁简体格式处理
jdk1.7+
maven 3.x+
<dependency> <groupId>com.github.houbb</groupId> <artifactId>segment</artifactId> <version>0.1.2</version> </dependency>
相关代码参见 SegmentHelperTest.java
返回分词,下标等信息。
final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。"; List<ISegmentResult> resultList = SegmentHelper.segment(string); Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());
有时候咱们根据本身的应用场景,须要选择不一样的返回形式。
SegmentResultHandlers
用来指定对于分词结果的处理实现,便于保证 api 的统一性。
方法 | 实现 | 说明 |
---|---|---|
common() |
SegmentResultHandler | 默认实现,返回 ISegmentResult 列表 |
word() |
SegmentResultWordHandler | 只返回分词字符串列表 |
默认分词形式,等价于下面的写法
List<ISegmentResult> resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());
final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。"; List<String> resultList = SegmentHelper.segment(string, SegmentResultHandlers.word()); Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我爱, 北京, ,, 我爱, 学习, 。]", resultList.toString());
分词模式能够经过类 SegmentModes
工具类获取。
序号 | 方法 | 准确度 | 性能 | 备注 |
---|---|---|---|---|
1 | search() | 高 | 通常 | 结巴分词的默认模式 |
2 | dict() | 较高 | 通常 | 和 search 模式相似,可是缺乏 HMM 新词预测 |
3 | index() | 通常 | 高 | 尽量多的返回词组信息,提升召回率 |
4 | greedyLength() | 通常 | 高 | 贪心最大长度匹配,对准确度要求不高时可采用。 |
针对灵活的配置,引入了 SegmentBs
做为引导类,解决工具类方法配置参数过多的问题。
测试代码参见 SegmentModeTest.java
segmentMode()
指定分词模式,不指定时默认就是 SegmentModes.search()
。
final String string = "这是一个伸手不见五指的黑夜。"; List<ISegmentResult> resultList = SegmentBs.newInstance() .segmentMode(SegmentModes.search()) .segment(string); Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
只依赖词库实现分词,没有 HMM 新词预测功能。
final String string = "这是一个伸手不见五指的黑夜。"; List<ISegmentResult> resultList = SegmentBs.newInstance() .segmentMode(SegmentModes.dict()) .segment(string); Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
这里主要的区别就是会返回 伸手
、伸手不见
等其余词组。
final String string = "这是一个伸手不见五指的黑夜。"; List<ISegmentResult> resultList = SegmentBs.newInstance() .segmentMode(SegmentModes.index()) .segment(string); Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
这里使用贪心算法实现,准确率通常,性能较好。
final String string = "这是一个伸手不见五指的黑夜。"; List<ISegmentResult> resultList = SegmentBs.newInstance() .segmentMode(SegmentModes.greedyLength()) .segment(string); Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
能够经过 SegmentFormats
工具类获取对应的格式化实现,在分词时指定便可。
序号 | 方法 | 名称 | 说明 |
---|---|---|---|
1 | defaults() | 默认格式化 | 等价于小写+半角处理。 |
2 | lowerCase() | 字符小写格式化 | 英文字符处理时统一转换为小写 |
3 | halfWidth() | 字符半角格式化 | 英文字符处理时统一转换为半角 |
4 | chineseSimple() | 中文简体格式化 | 用于支持繁体中文分词 |
5 | none() | 无格式化 | 无任何格式化处理 |
6 | chains(formats) | 格式化责任链 | 你能够针对上述的格式化自由组合,同时容许自定义格式化。 |
全角半角+英文大小写格式化处理,默认开启。
这里的 Q
为全角大写,默认会被转换处理。
String text = "阿Q精神"; List<ISegmentResult> segmentResults = SegmentHelper.segment(text); Assert.assertEquals("[阿Q[0,2), 精神[2,4)]", segmentResults.toString());
不管是结巴分词仍是当前框架,默认对繁体中文的分词都不友好。
显然和简体中文的分词形式不一样。
String text = "這是一個伸手不見五指的黑夜"; List<String> defaultWords = SegmentBs.newInstance() .segment(text, SegmentResultHandlers.word()); Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());
指定分词中文格式化,能够获得符合咱们预期的分词。
String text = "這是一個伸手不見五指的黑夜"; List<String> defaultWords = SegmentBs.newInstance() .segmentFormat(SegmentFormats.chineseSimple()) .segment(text, SegmentResultHandlers.word()); Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());
格式化的形式能够有不少,咱们能够根据本身的需求自由组合。
好比咱们想同时启用默认格式化+中文简体格式化。
final String text = "阿Q,這是一個伸手不見五指的黑夜"; List<String> defaultWords = SegmentBs.newInstance() .segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(), SegmentFormats.chineseSimple())) .segment(text, SegmentResultHandlers.word()); Assert.assertEquals("[阿Q, ,, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());
性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证两者都作好预热,而后统一处理。
验证下来,默认模式性能略优于 jieba 分词,贪心模式是其性能 3 倍左右。
备注:
(1)默认模式和结巴 Search 模式一致。
后期考虑 HMM 也能够配置是否开启,暂定为默认开启
(2)后期将引入多线程提高性能。
代码参见 BenchmarkTest.java
相同长文本,循环 1W 次耗时。(Less is Better)
HMM 词性标注
HMM 实体标注
CRF 算法实现
多线程的支持,性能优化
感谢 jieba 分词提供的词库,以及 jieba-analysis 的相关实现。