基于n-gram模型的中文分词

时间 2021-07-14

原文原文链接

一、前言 n-gram模型，称为N元模型，可用于定义字符串中的距离，也可用于中文的分词；该模型假设第n个词的出现只与前面n-1个词相关，与其他词都不相关，整个语句的概率就是各个词出现概率的乘积；而这些概率，利用语料，统计同时出现相关词的概率次数计算得到；常用的模型是Bi-gram和Tri-gram模型。 n-gram的应用：模糊匹配二、算法推论假设一个字符串s由m个词组成，因此我们