主题模型--频率派与贝叶斯学派之争始末

一、词袋模型/N-gram模型的明显缺陷     这两个模型最大的缺陷就是无法识别出两个不同的词或词组具有相同的主题,造成这个缺陷的可能原因: -- N-gram模型是基于马尔科夫网络 -- 中心词只和前N个词或者后N个词有关系 -- 中心词是具体的词,因此两个不同的中心词就是不同的团,自然就认为是两个不同的主题 二、PLSA     1、一个用生成模型来建模文章的生成过程,具体文本生成过程如下:
相关文章
相关标签/搜索