主题模型概述

传统的方法一般只停留在文档的表面统计信息(例如tf-idf、textrank等),对于文本中丰富的信息无法充分地进行利用,尤其是潜在的语义信息,例如两篇文档出现的词很少甚至没有,但是两个文档很相似,比如,文档1:苹果手机会不会降价?文档2:乔布斯的家乡在哪? 主题模型是用来在大量文档中发现潜在主题的一种统计模型。通俗地讲,主题模型认为在词与文档之间应该当还存在一个维度将它们串联起来,主题模型将这个
相关文章
相关标签/搜索