文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

1、LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?” 可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判
相关文章
相关标签/搜索