text mining week4

一、文本聚类 1. 概念 用户必须定义是从什么角度来判断相似性,而这个角度即为聚类偏差。 2. 方式:生成概率模型 (1) 主题模型与聚类 input: a text collection C and a number of topics k, and vocabulary V output: 词分布,每一个文档覆盖一个话题的概率 input: a text collection C and a
相关文章
相关标签/搜索