LDA主题模型困惑度计算

    对于LDA模型,最经常使用的两个评价方法困惑度(Perplexity)、类似度(Corre)。html     其中困惑度能够理解为对于一篇文章d,所训练出来的模型对文档d属于哪一个主题有多不肯定,这个不肯定成都就是困惑度。困惑度越低,说明聚类的效果越好。post    计算公式     分母是测试集中全部单词之和,即测试集的总长度,不用排重。其中p(w)指的是测试集中每一个单词出现的几率
相关文章
相关标签/搜索