随着信息技术的不断发展,互联网上的信息也在急剧膨胀,在这海量的信息中,各种信息混杂在一块儿,要想充分利用这些信息资源就要对它们进行整理,若是由人来作这项工做,已是不可能的,而若是面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而致使资源的不能充分利用。经过引入分词技术,就可使机器对海量信息的整理更准确更合理,使得检索结果更准确,效率也会大幅度的提升。
汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”咱们还知道,“词是最小的可以独立活动的有意义的语言成分。”计算机的全部语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各类组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。分词是汉语天然语言处理的第一步。目前,汉语天然语言处理的应用系统处理对象愈来愈多的是大规模语料,所以分词的速度和分词算法的易实现性变得至关关键。
但因为中文词与词之间不象西文那样有明显的分隔符,因此构成了中文在自动切分上的极大困难。在现有的中文自动分词方法中,基于词典的分词方法占有主导地位。而中文分词的主要困难不在于词典中词条的匹配,而是在于切分歧义消解和未登陆词语的识别。在中文分词过程当中,这两大难题一直没有彻底突破。
一、歧义处理
歧义是指一样的一句话,可能有两种或者更多的切分方法。目前主要分为交集型歧义、组合型歧义和真歧义三种。其中交集型歧义字段数量庞大,处理方法多样;组合型歧义字段数量较少,处理起来相对较难;而真歧义字段数量更为稀少,且很难处理。 分词歧义处理之因此是中文分词的困难之一,缘由在于歧义分为多种类型,针对不一样的歧义类型应采起不一样的解决方法。除了须要依靠上、下文语义信息;增长语义、语用知识等外部条件外,还存在难以消解的真歧义,增长了歧义切分的难度。同时未登陆词中也存在着歧义切分的问题,这也增长了歧义切分的难度。因此歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个最困难也是最核心的问题。
二、未登陆词识别
新词,专业术语称为未登陆词。也就是那些在字典中都没有收录过词。未登陆词能够分为专名和非专名两大类。其中专名包括中国人名、外国译名、地名等,而非专名包括新词、简称、方言词语、文言词语、行业用词等。 不管是专名仍是非专名的未登陆词都很难处理,由于其数量庞大,又没有相应的规范,并且随着社会生活的变迁,使未登陆词的数量大大增长,这又为未登陆词的识别增长了难度。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是知足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、天然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API能够无缝地融合到客户的各种复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一样操做系统平台,能够供Java,Python,C,C#等各种开发语言使用。
中文分词技术应时代的要求应运而生,在很大程度上知足了人们对天然语言处理的须要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在不少困难,咱们相信在将来的几年里,经过对中文分词技术的深刻研究,必将开发出高质量、多功能的中文分词算法并促进天然语言理解系统的普遍应用。算法