自然语言处理|MP最大概率中文分词

课程作业,只完成了最基本的算法,还有不足的地方,例如一些多位数的分词方式等,大家可以适当参考。   1.语言模型说明 语言模型为bigram,保存在一个(n*n)的numpy矩阵LM中,训练过程:  第一次遍历训练语料构建词表,即保存所有出现过的词  第二次遍历训练语料构建二维计数表,bigram[i][j] = count(wi-1,wi)  平滑(由于运算量较大,且测试较小所以平滑运算直接在后
相关文章
相关标签/搜索