如何计算两个文档的类似度

1、TF-IDF、余弦类似度、向量空间模型算法

(1)使用TF-IDF算法,找出两篇文章的关键词;spa

(2)每篇文章各取出若干个关键词(好比20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了不文章长度的差别,能够使用相对词频);.net

(3)生成两篇文章各自的词频向量;blog

(4)计算两个向量的余弦类似度,值越大就表示越类似。io

2、SVD和LSI集合

LSA(潜在语义分析)的基本思路:LSA但愿经过下降传统向量空间的维度来去除空间中的“噪音”,而降维能够经过SVD实现,所以首先对Term-Document矩阵进行SVD分解,而后降维并构造语义空间。co

(奇异值分解详解:http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)生成

3、LDA模型

相关文章
相关标签/搜索