11款开放中文分词引擎大比拼

时间 2019-11-09

标签开放中文分词引擎比拼繁體版

原文原文链接

在逐渐步入DT（Data Technology）时代的今天，天然语义分析技术愈加不可或缺。对于咱们天天打交道的中文来讲，并无相似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。
一提到自动分词，一般会遇到两种比较典型的质疑。一种质疑是来自外行人的：这件事看上去平凡之极，好像一点儿也不“fancy”，会有什么用呢？另外一种质疑则是来自业内：自动分词研究已经进行了数年，而网上也存在各类不一样的开放分词系统，但对于实际商用彷佛也未见一个“即插即用”的系统。
那么，目前常见的开放分词引擎，到底性能如何呢？为了进行测试，咱们调研了11款网上常见的而且公开提供服务的分词系统，包括：
php

分词的客观量化测试离不开标注数据，即人工所准备的分词“标准答案”。在数据源方面，咱们将测试分为:html

新闻数据：140篇，共30517词语；python
微博数据：200篇，共12962词语；git
汽车论坛数据（汽车之家）100篇：共27452词语；github
餐饮点评数据（大众点评）：100条，共8295词语。web

准确度计算规则：网络

将全部标点符号去除，不作比较性能
参与测试的部分系统进行了实体识别，可能形成词语认定的不统一。咱们将对应位置替换成了人工标注的结果，获得准确率估算的上界。学习
通过以上处理，用SIGHAN 分词评分脚本比较获得最终的准确率，召回率和F1值。测试

以上全部数据采用北大现代汉语基本加工规范对全部数据进行分词做为标准。具体数据下载地址请参见附录。经过这四类数据综合对比不一样分词系统的分词准确度。

上图为参与比较的10款分词引擎在不一样数据的分词准确度结果。能够看出，在所测试的四个数据集上，BosonNLP和哈工大语言云都取得了较高的分词准确率，尤为在新闻数据上。由于庖丁解牛是将全部可能成词的词语所有扫描出来（例如：“最不满意”分为：“最不不满满意”），与其余系统输出规范不一样，于是不参与准确率统计。
为了更直接的比较不一样数据源的差异，咱们从每一个数据源的测试数据中抽取比较典型的示例进行更直观的对比。

【新闻数据】
新闻数据的特色是用词规整，符合语法规则，也是广泛作得比较不错的一个领域。对比其余数据源，有7家系统都在新闻领域达到最高。包括IKAnalyzer、盘古分词、搜狗分词、新浪云、NLPIR、语言云、BosonNLP。而且有三家系统准确率超过90%。

样例：香港中文大学将来合肥一中进行招生宣传今年在皖招 8 人万家热线安徽第一门户

【微博数据】
微博数据用词多样、话题普遍，并常包含错别字及网络流行词。可以比较全面的体现每家分词系统的准确度。

样例：补了 battle 赛峰暴班的两个弟弟妹妹 @杨宝心 @修儿一个是我很挺的好弟弟一个是我推荐进好声音的妹子虽然都在 battle 阶段都下来了可是我依然像以前那样以为大家很是棒

【汽车论坛】
汽车数据是针对汽车领域的专业评价数据，会出现不少的专业术语。例如示例中的“胎噪”、“风燥”等，若是系统没有足够强大的训练词库或领域优化，会使准确率有较大程度下降。比较有意思的是，对比其余数据源，有3家系统都在汽车论坛领域达到最高：腾讯文智、SCWS中文分词、结巴分词。

样例：温馨性胎噪风噪偏大避震偏硬过坎弹跳明显

【餐饮点评】
餐饮点评数据为顾客评论数据，更偏重口语化。会出现不少相似“闺蜜”、“萌萌哒”口语化词语和不少不规范的表达，使分词更加困难。

样例：跟闺蜜在西单逛街想吃寿司了在西单没搜到其余的日料店就来禾绿了咱们俩都以为没之前好了

各家系统对于多数简单规范的文本的分词已经达到很高的水平。但在仔细对比每一家中文分词后依旧发现切分歧义词和未登录词（即未在训练数据中出现的词）仍然是影响分词准确度的两大“拦路虎”。
1.切分歧义：根据测试数据的切分结果，一类属于机器形式的歧义，在真实语言环境下，只有惟一可能的正确切分结果，称其为伪歧义。另外一类有两种以上可实现的切分结果，称为真歧义。因为真歧义数据没法比较正确或者错误。全部咱们着重举例来比较各家系统对伪歧义的处理效果。

正确：在伦敦奥运会 上将 可能有一位沙特阿拉伯的女子

（BosonNLP、新浪云、语言云、NLPIR、腾讯文智）

错误：在伦敦奥运会上将可能有一位沙特阿拉伯的女子

（PHP结巴分词、SCWS中文分词、搜狗分词、庖丁解牛）

示例中原意指伦敦奥运会可能有一位沙特阿拉伯的女子，错误分词的意思是指上将（军衔）中有一位是沙特阿拉伯的女子，句意大相径庭。固然，分析的层次越深，机器对知识库质量、规模等的依赖性就越强，所须要的时间、空间代价也就越大。
2.未登陆词：未登陆词大体包含三大类：
a)新涌现的通用词：相似“神马”、“纳尼”、“甩卖”、“玫瑰金”等新思想、新事物所带来的新词汇，不论是文化的、政治的、仍是经济的，在人们的生活中不断涌现。同时不少词语也具备必定的时效性。
b)专业术语：是相对平常用语而言的，通常指的某一行业各类名称用语，大多数状况为该领域的专业人士所熟知。这种未登陆词理论上是可预期的。可以人工预先添加到词表中（但这也只是理想状态，在真实环境下并不易作到）。
c)专有名词：如中国人名、外国译名、地名、公司名等。这种词语不少基本上不可经过词典覆盖，考验分词系统的新词识别能力。

【新涌现的通用词或专业术语】
示例中的蓝色字包括专业术语：“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹横肌”；新涌现的通用词：“人鱼线”、“马甲线”。大多数的系统对于示例文本的分词结果都不够理想，例如：“大肚腩”（SCWS中文分词） “腹直肌腹外斜肌”（搜狗分词、IKAnalyer、NLPIR、SCWS中文分词）、“人鱼线”（PHP结巴分词）。总的来讲这两种类型的数据每家系统都存在必定的缺陷，相对而言哈工大的语言云在这方面表现的较好。

本季最强家庭瘦腰计划完全告别 大肚腩 没有腹肌的人生是不完整的平面模特 yanontheway 亲身示范的 9 个动做完全强化 腹直肌 腹外斜肌 腹内斜肌 以及 腹横肌 每一个动做认真作足 50 次必定要坚持作完美的 人鱼线 性感的 马甲线 都要咱们本身去争取

【专有名词】
示例出现的专有名词包括“蒂莫西伊斯顿”（姓名）、“英国”“意大利”“北欧”（地点）、“金斯敦”（机构名）、“伊丽莎白格林希尔兹”（机构名）。而这种用词典没法穷尽的专有名词也成为各家分词准确率下降的重要缘由。其中搜狗分词、IKAnalyer、PHP结巴分词、腾讯文智、SCWS中文分词在新词识别时较为谨慎，常将这类专有名词切分红多个词语。

油画英国画家 蒂莫西伊斯顿 惟美风油画 timothy easton 毕业于英国 金斯敦 艺术学院曾获 伊丽莎白 格林希尔兹 基金会奖得以前往 意大利 和北欧学习一年的机会

固然在分词准确度能够接受的状况下，不少细节问题，包括是否有出错状况、是否支持各类字符、是否标注词性等均可能让咱们望而却步。在分词颗粒度选择当中，BosonNLP、SCWS、盘古分词、结巴分词、庖丁解牛都提供了多种选择，能够根据需求来采用不一样的分词粒度。与北大的分词标准对比来讲，新浪云默认的分词粒度较大，而搜狗分词、腾讯文智分词粒度相对较小。除此以外，BosonNLP、新浪云、NLPIR、腾讯文智同时提供了实体识别、情感分析、新闻分类等其余扩展服务。下表给出了各家系统在应用方面的详细对比。

中文分词是其余中文信息处理的基础，而且在不少领域都有普遍的应用，包括搜索引擎、机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等。随着非结构化文本的普遍应用，中文分词等文本处理技术也变得愈来愈重要。经过评测能够看出，部分开放分词系统在不一样领域已经达到较高准确率。对于数据分析处理的从业者，相信在此之上构建数据分析系统、人机交互平台，更可以起到事半功倍的效果。

注意：分词数据准备及评测由BosonNLP完成。

附录
评测数据地址
http://bosonnlp.com/dev/resource

各家分词系统连接地址
BosonNLP：http://bosonnlp.com/dev/center
IKAnalyzer：http://www.oschina.net/p/ikanalyzer
NLPIR：http://ictclas.nlpir.org/docs
SCWS中文分词：http://www.xunsearch.com/scws/docs.php
结巴分词：https://github.com/fxsjy/jieba
盘古分词：http://pangusegment.codeplex.com/
庖丁解牛：https://code.google.com/p/paoding/
搜狗分词：http://www.sogou.com/labs/webservice/
腾讯文智：
http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3
新浪云：http://www.sinacloud.com/doc/sae/python/segment.html
语言云：http://www.ltp-cloud.com/document