中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA)

中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA) 中文分词就是对中文断句,这样能消除文字的部分歧义。除了基本的分词功能,为了消除歧义还可以进行更多的加工。中文分词可以分成如下几个子任务: 分词:把输入的标题或者文本内容等分成词。 词性标注(POS):给分出来的词标注上名词或动词等词性。词性标注可以部分消除词的歧义,例如“行”作为量词和作为形容词表示的意思不一样。 语义标注:把
相关文章
相关标签/搜索