自然语言处理|MP最大概率中文分词

时间 2021-01-13

标签 NLP 自然语言处理繁體版

原文原文链接

课程作业，只完成了最基本的算法，还有不足的地方，例如一些多位数的分词方式等，大家可以适当参考。 1.语言模型说明语言模型为bigram，保存在一个（n*n）的numpy矩阵LM中，训练过程：第一次遍历训练语料构建词表，即保存所有出现过的词第二次遍历训练语料构建二维计数表，bigram[i][j] = count(wi-1,wi) 平滑（由于运算量较大，且测试较小所以平滑运算直接在后

>>阅读原文<<