结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍

Segment

Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。java

变动日志

创做目的

分词是作 NLP 相关工做,很是基础的一项功能。git

jieba-analysis 做为一款很是受欢迎的分词实现,我的实现的 opencc4j 以前一直使用其做为分词。github

可是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。算法

有不少功能没法指定关闭,好比 HMM 对于繁简体转换是无用的,由于繁体词是固定的,不须要预测。框架

最新版本的词性等功能好像也被移除了,可是这些都是我的很是须要的。maven

因此本身从新实现了一遍,但愿实现一套更加灵活,更多特性的分词框架。性能

并且 jieba-analysis 的更新彷佛停滞了,我的的实现方式差别较大,因此创建了全新的项目。学习

Features 特色

  • 基于 DFA 实现的高性能分词
  • 容许用户自定义词库
  • 支持返回词性

默认关闭,惰性加载,不对性能和内存有影响。测试

快速入门

准备

jdk1.7+编码

maven 3.x+

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>segment</artifactId>
    <version>${最新版本}</version>
</dependency>

使用示例

相关代码参见 SegmentBsTest.java

获取分词,下标等信息

暂时没有实现词性标注,准备下个版本实现。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List<ISegmentResult> resultList = SegmentBs.newInstance().segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我[20,21), 爱[21,22), 北京[22,24), ,[24,25), 我[25,26), 爱[26,27), 学习[27,29), 。[29,30)]", resultList.toString());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List<String> resultList = SegmentBs.newInstance().segmentWords(string);
Assert.assertEquals("[这, 是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我, 爱, 北京, ,, 我, 爱, 学习, 。]", resultList.toString());

返回词性

使用示例

直接指定 wordType 属性为真便可。

final String string = "我爱学习";

List<ISegmentResult> resultList = SegmentBs
                .newInstance()
                .wordType(true)
                .segment(string);

Assert.assertEquals("[我[0,1)/r, 爱[1,2)/v, 学习[2,4)/v]", resultList.toString());

词性说明

r/v 就是词性,每个表明的含义详情以下。

编码 描述
Ag 形语素
a 形容词
ad 副形词
an 名形词
b 区别词
c 连词
dg 副语素
d 副词
e 叹词
f 方位词
g 语素
h 前接成分
i 成语
j 简称略语
k 后接成分
l 习用语
m 数词
Ng 名语素
n 名词
nr 人名
ns 地名
nt 机构团体
nz 其余专名
o 拟声词
p 介词
q 量词
r 代词
s 处所词
tg 时语素
t 时间词
u 助词
vg 动语素
v 动词
vd 副动词
vn 名动词
w 标点符号
x 非语素字
y 语气词
z 状态词
un 未知词

能够参见对应的枚举类 WordTypeEnum

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证两者都作好预热,而后统一处理。

验证下来,分词的性能是 jieba 的两倍左右

缘由也很简单,暂时没有引入词频和 HMM。

代码参见 BenchmarkTest.java

性能对比图

相同长文本,循环 1W 次。

benchmark.png

后期 Road-Map

核心特性

  • 基于词频修正
  • HMM 算法实现新词预测
  • 常见的分词模式
  • 停顿词/人名/地名/机构名/数字... 各类常见的词性标注

格式处理

  • 全角半角处理
  • 繁简体处理

创做感谢

感谢 jieba 分词提供的词库,以及 jieba-analysis 的相关实现。

相关文章
相关标签/搜索