中文分词算法之基于词典的逆向最小匹配算法

时间 2019-11-20

标签中文分词算法基于词典逆向最小匹配繁體版

原文原文链接

在以前的博文中介绍了基于词典的逆向最大匹配算法，好比咱们切分句子: 中华人民共和国万岁万岁万万岁，使用逆向最大匹配算法的切分结果为：[中华人民共和国, 万岁, 万岁, 万万岁]，能够看到，切分出来的词是很长的，粒度很粗，若是咱们想要切分出很细粒度的词，该怎么办呢？java

本文介绍逆向最小匹配算法，该算法和逆向最大匹配算法相得益彰，一个强调细粒度，一个强调粗粒度。git

使用逆向最小匹配算法，必须注意的一点是：词典中不能有单字词，词的长度至少为2！咱们看逆向最小匹配算法和逆向最大匹配算法的代码比较：github

切分效果以下：算法

切分句子: 中华人民共和国万岁万岁万万岁
逆向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁]
逆向最小匹配: [中华, 人民, 共和国, 万岁, 万岁, 万, 万岁]
切分句子: 杨尚川是APDPlat应用级产品开发平台的做者
逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 做者]
逆向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 做者]
切分句子: 美国加州大学的科学家发现
逆向最大匹配: [美国加州大学, 的, 科学家, 发现]
逆向最小匹配: [美国, 加州, 大学, 的, 科, 学家, 发现]

代码托管于GITHUBspa

参考资料：code

一、中文分词十年回顾视频

二、中文信息处理中的分词问题blog

三、汉语自动分词词典机制的实验研究教程

四、由字构词_中文分词新方法开发

五、汉语自动分词研究评述

NUTCH/HADOOP视频教程

中文分词算法 之 基于词典的逆向最小匹配算法

中文分词算法之基于词典的逆向最小匹配算法