基于EM算法的文本聚类

文本聚类问题: 一个文本为一个向量,向量的长度为字典的长度,这个向量中的每个值为0或1,表示这个单词是否在该文章中出现。 假设为二分类,则每个向量对应一个分类值,分类值为0或1,如果为三分类,则分类值为0,1,2。而这个标签值为隐变量Z。 这里的观测O为具体的各个向量。在这个模型里,参数是什么呢? 我们需要由参数出发,经由隐变量,计算得到观测O,因此这里的参数设计可以类似于隐马尔可夫模型的参数设计
相关文章
相关标签/搜索