数学之美:谈谈中文分词

西方语言中词语有明显的分隔符,而对于中日韩等语言,词与词之间没有明确分界。而语言模型又是建立在词的基础上的,这就导致分词非常有必要。 中文分词最早方法是“查字典”,就是从左到右根据字典查询,遇到字典有的词就标出来,遇到不认识的就分成单个词。但这种方法存在一定的缺陷,如“发展中国家”,根据查字典将会分成“发展”、“中国”、“家”。明显不对。 后来有了基于统计模型的分词方法。假设某个句子可以有以下三种
相关文章
相关标签/搜索