机器学习主题模型之LSA、pLSA、NMF

  一、主题模型(Topic Model)         判断文档相似性的传统方法是通过查看两个文档共同出现的词项(terms,不重复的words)有多少,如TF-IDF等。但这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的词项很少甚至没有,但两个文档是相似的。         主题模型是用来在大量文档中发现潜在主题的一种统计模型。如果一篇文章有一个中心思想,那么一些特定词语会出现
相关文章
相关标签/搜索