基于n-gram模型的中文分词

一、前言   n-gram模型,称为N元模型,可用于定义字符串中的距离,也可用于中文的分词;该模型假设第n个词的出现只与前面n-1个词相关,与其他词都不相关,整个语句的概率就是各个词出现概率的乘积;而这些概率,利用语料,统计同时出现相关词的概率次数计算得到;常用的模型是Bi-gram和Tri-gram模型。   n-gram的应用:模糊匹配 二、算法推论   假设一个字符串s由m个词组成,因此我们
相关文章
相关标签/搜索