词法分析是天然语言处理的基础与关键。在中文天然语言处理中,词是最小的可以独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,所以进行中文天然语言处理一般是先将汉语文本中的字符串切分红合理的词语序列,而后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被普遍应用于中文文本处理、信息提取、文本挖掘等应用中。算法
一个天然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等,但这些却仍是远远不够的。好比一个系统若是要回答提问或者直接参与对话,它不只须要知道不少语言结构的知识,并且还要知道人类世界的通常性知识并具有人类的推理能力。所以许多语言学家一般把对语言的分析和理解分红以下几个主要层次:词法分析、句法分析、语义分析、篇章分析。测试
首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是经过分词、词频和位置统计等手段得到相关语言信息。编码
其次,句法分析经过使句子成分特征化来分析句子结构特征,经过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的做用,并以必定结构来表达诸如从属关系、成分关系等,目的是断定句子中各类结构性成分。spa
第三,为了理解一个提问,通常还须要更多的语义和语用知识来帮助理解句子的意思,经过分析找出词义、结构意义及其结合意义,从而肯定句子所表达的真正含义,而语义信息的标记须要包含概念彻底集与关系图的支持,须要对句法成分作出细致的语义分类,它通常应包括语言层面(即反映语言表面现象的知识,如同义词关系、层次关系等)、本体论层面(描述概念之间复杂的语义关系)、常识层面等。虽然这项工做浩繁,但目前已经取得了一些初步成果。操作系统
最后,篇章分析用于对多个语句、段落之间在结构或者语义上的相互关系进行分析。blog
NLPIR分词系统是通过多年研究工做积累,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK编码、UTF8编码、BIG5编码)、多种操做系统、多种开发语言与平台。开发
NLPIR/ICTCLAS2018分词系统主要功能介绍字符串
1)中英文混合分词功能微博
自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登陆词识别与用户词典等功能。class
2)关键词提取功能
采用交叉信息熵的算法自动计算关键词,包括新词与已知词,
3)新词识别与自适应分词功能
从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言几率分布模型,实现自适应分词。
4)用户专业词典功能
能够单条导入用户词典,也能够批量导入用户词典。如能够定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
ICTCLAS分词法利用词典匹配进行初切分获得一个切分词图,而后利用词频信息求词图N条最短路径的N-最短路径法。还有些研究者利用词典找出全部的交叉歧义,而后利用Bigram语言模型或其变形来消除歧义。