结巴分词 java 高性能实现，优雅易用的 api 设计，性能优于 huaban jieba 分词

时间 2021-01-19

标签 java git github 算法 api 数组性能优化多线程框架 maven 栏目搜索引擎繁體版

原文原文链接

Segment

Segment 是基于结巴分词词库实现的更加灵活，高性能的 java 分词实现。java

变动日志git

创做目的

分词是作 NLP 相关工做，很是基础的一项功能。github

jieba-analysis 做为一款很是受欢迎的分词实现，我的实现的 opencc4j 以前一直使用其做为分词。算法

可是随着对分词的了解，发现结巴分词对于一些配置上不够灵活。api

（1）有不少功能没法指定关闭，好比 HMM 对于繁简体转换是无用的，由于繁体词是固定的，不须要预测。数组

（2）最新版本的词性等功能好像也被移除了，可是这些都是我的很是须要的。性能优化

（3）对于中文繁体分词支持不友好。多线程

因此从新实现了一遍，但愿实现一套更加灵活，更多特性的分词框架。框架

并且 jieba-analysis 的更新彷佛停滞了，我的的实现方式差别较大，因此创建了全新的项目。maven

Features 特色

面向用户的极简静态 api 设计
面向开发者 fluent-api 设计，让配置更加优雅灵活
详细的中文代码注释，便于源码阅读
基于 DFA 实现的高性能分词
基于 HMM 的新词预测
支持不一样的分词模式
支持全角半角/英文大小写/中文繁简体格式处理
容许指定自定义词库

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>segment</artifactId>
    <version>0.1.2</version>
</dependency>

相关代码参见 SegmentHelperTest.java

默认分词示例

返回分词，下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱学习。";

List<ISegmentResult> resultList = SegmentHelper.segment(string);
Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ，[19,20), 我爱[20,22), 北京[22,24), ，[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

有时候咱们根据本身的应用场景，须要选择不一样的返回形式。

SegmentResultHandlers 用来指定对于分词结果的处理实现，便于保证 api 的统一性。

方法	实现	说明
`common()`	SegmentResultHandler	默认实现，返回 ISegmentResult 列表
`word()`	SegmentResultWordHandler	只返回分词字符串列表

默认模式

默认分词形式，等价于下面的写法

List<ISegmentResult> resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱学习。";

List<String> resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());
Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ，, 我爱, 北京, ，, 我爱, 学习, 。]", resultList.toString());

分词模式

分词模式简介

分词模式能够经过类 SegmentModes 工具类获取。

序号	方法	准确度	性能	备注
1	search()	高	通常	结巴分词的默认模式
2	dict()	较高	通常	和 search 模式相似，可是缺乏 HMM 新词预测
3	index()	通常	高	尽量多的返回词组信息，提升召回率
4	greedyLength()	通常	高	贪心最大长度匹配，对准确度要求不高时可采用。

使用方式

针对灵活的配置，引入了 SegmentBs 做为引导类，解决工具类方法配置参数过多的问题。

测试代码参见 SegmentModeTest.java

search 模式

segmentMode() 指定分词模式，不指定时默认就是 SegmentModes.search()。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()
       .segmentMode(SegmentModes.search())
       .segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

dict 模式

只依赖词库实现分词，没有 HMM 新词预测功能。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()
        .segmentMode(SegmentModes.dict())
        .segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

index 模式

这里主要的区别就是会返回 伸手、伸手不见 等其余词组。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()
        .segmentMode(SegmentModes.index())
        .segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

GreedyLength 模式

这里使用贪心算法实现，准确率通常，性能较好。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()
        .segmentMode(SegmentModes.greedyLength())
        .segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

格式化处理

格式化接口

能够经过 SegmentFormats 工具类获取对应的格式化实现，在分词时指定便可。

序号	方法	名称	说明
1	defaults()	默认格式化	等价于小写+半角处理。
2	lowerCase()	字符小写格式化	英文字符处理时统一转换为小写
3	halfWidth()	字符半角格式化	英文字符处理时统一转换为半角
4	chineseSimple()	中文简体格式化	用于支持繁体中文分词
5	none()	无格式化	无任何格式化处理
6	chains(formats)	格式化责任链	你能够针对上述的格式化自由组合，同时容许自定义格式化。

默认格式化

全角半角+英文大小写格式化处理，默认开启。

这里的 Ｑ 为全角大写，默认会被转换处理。

String text = "阿Ｑ精神";
List<ISegmentResult> segmentResults = SegmentHelper.segment(text);

Assert.assertEquals("[阿Ｑ[0,2), 精神[2,4)]", segmentResults.toString());

中文繁体分词

不管是结巴分词仍是当前框架，默认对繁体中文的分词都不友好。

默认分词示例

显然和简体中文的分词形式不一样。

String text = "這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()
        .segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());

启用中文繁体分词

指定分词中文格式化，能够获得符合咱们预期的分词。

String text = "這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()
        .segmentFormat(SegmentFormats.chineseSimple())
        .segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

格式化责任链

格式化的形式能够有不少，咱们能够根据本身的需求自由组合。

好比咱们想同时启用默认格式化+中文简体格式化。

final String text = "阿Ｑ，這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()
        .segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),
                SegmentFormats.chineseSimple()))
        .segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[阿Ｑ, ，, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本，测试条件保持一致，保证两者都作好预热，而后统一处理。

验证下来，默认模式性能略优于 jieba 分词，贪心模式是其性能 3 倍左右。

备注：

（1）默认模式和结巴 Search 模式一致。

后期考虑 HMM 也能够配置是否开启，暂定为默认开启

（2）后期将引入多线程提高性能。

代码参见 BenchmarkTest.java

性能对比图

相同长文本，循环 1W 次耗时。（Less is Better）

后期 Road-Map

核心特性

HMM 词性标注
HMM 实体标注
CRF 算法实现
N 元组算法实现

优化

多线程的支持，性能优化
双数组 DFA 实现，下降内存消耗

辅助特性

拓展自定义词库的特性

创做感谢

感谢 jieba 分词提供的词库，以及 jieba-analysis 的相关实现。

结巴分词 java 高性能实现，优雅易用的 api 设计，性能优于 huaban jieba 分词

Segment

创做目的

Features 特色

最新变动

快速入门

准备

maven 引入

默认分词示例

指定返回形式

默认模式

只获取分词信息

分词模式

分词模式简介

使用方式

search 模式

dict 模式

index 模式

GreedyLength 模式

格式化处理

格式化接口

默认格式化

中文繁体分词

默认分词示例

启用中文繁体分词

格式化责任链

Benchmark 性能对比

性能对比

性能对比图

后期 Road-Map

核心特性

优化

辅助特性

创做感谢