中文分词原理和实现

三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。html 一、基于规则或词典的方法 定义:按照必定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。node 按照扫描方向的不一样:正向匹配和逆向匹配 按照长度的不一样:最大匹配和最小匹配 1.1正向最大匹配思想MM 从左向右取待切分汉语句的m个字符做为匹配字段,m为大机器词典中最长词条
相关文章
相关标签/搜索