词汇与分词技术

中文分词主要分为三个流派:html

机械式分词法(基于词典):
简单来讲就是创建一个巨大的词典,而后将词典中的词语和文章中的词语相匹配,找到这个词语就算匹配成功,可是词典的完备性得不到保证。也就是文章中的有的词语在词典中找不到。python

基于语法和规则的分词法:
分词的同时在句法语义方面进行分析,利用句法信息和语义信息进行词性标注,解决分词的歧义。
由于如今的语法句法还十分复杂,因此精度还不高。web

基于统计的分词法
根据字符串在语料库中出现的统计频率来决定这是不是一个词语。算法

本文主要介绍ICTCLAS中文分词的来源与现状。数组

什么是词语和分词规范
有人作过一个测试,被测试的有三我的来自内地 三我的来自台湾,分词结果差别最大0.69最小0.89平均认同率0.76说明同是汉语使用者的分词标准有分歧
本书涉及的分词规范有两类:markdown

第一类包括《北大(中科院)词性标注》、《现代汉语语料库加工规范---词语切分与词性标注》、《北京大学现代汉语语料库基本加工规范》三篇文章。编辑器

第二类为《宾州树库中文分词规范》,http://www.threedweb.cn/thread-1478-1-1.html下载 ide

将汉语的词类主要分为13种:名词、动词、代词、形容词、数词、量词、副词、介词、连词、助词、语气词、叹词和象声词。测试

两种分词标准:
例如:浙江大学坐落在西湖旁边
粗粒度:浙江大学、坐落、在、西湖、旁边
细粒度:浙江、大学、坐落、在、西湖、旁边搜索引擎

粗粒度主要应用在天然语言处理的应用
细粒度主要应用在搜索引擎

机械分词方法采用自动分词词典中的词语从前日后匹配和从后往前匹配,这个方法没有考虑词汇上下文的相关性,准确度不高,不能知足高精度文本处理的需求。

这个机械分词的缺陷揭示一个重要规律:
也就是每一个词语的出现是和先后上下文有关系的,可是上下文依赖关系不能考虑太远的词语,若是假设每一个词语只和相邻的一个词语有关系,就提出了二元模型,一阶Markov链:
词汇与分词技术

感受51CTO要提供一个公式编辑器,否则这个还能不能好好写下去:
下面有个python实现二元模型的代码,代码我就不抄了,简单来讲,几元模型就是和相邻的几个词语有关系。
https://www.2cto.com/net/201701/588278.html

分词中还要解决一个问题就是词语是不断更新的,词库里面是没有的,这个问题叫作未登陆词识别:
基于半监督的条件随机场(semi-CRF)算法 对于处理不一样领域的专名识别具备较低的成本和较好的效果。

https://www.zhihu.com/question/35866596
词汇与分词技术

ICRCLAS汉语分词系统是由张华平博士于2002年设计开发的。。。。。历史我就不说了仍是感谢做者张华平博士提供了这么好的系统,如今不少知名互联网公司都以这个算法为分词系统的核心算法。

hanLP分词模块的流程:词汇与分词技术

http://www.hankcs.com/nlp/python-calls-hanlp.html
词汇与分词技术

Nshort算法原理
一、今后图中构建处节点和权重排序数组
二、今后图中过滤掉排序数组中权重较高的路径
http://www.xuebuyuan.com/743558.html
词汇与分词技术

相关文章
相关标签/搜索