NLP学习计划(二)-中文文本特征处理

 中文分词的中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类:基于词典的方法,基于统计的方法,基于规则的方法,基于字标注的方法,基于人工智能技术(基于理解)的方法。中文分词目前主要有三个难点,分别是分词规范问题、未登录词识别、歧义切分问题。 一.基本文本处理技能 对于中文分词算法共有以下五类: 1基于词典的方法(字符串匹配,机械分词方法) 2基于统计的分词(无字典分词) 3
相关文章
相关标签/搜索