如何计算两个文档的类似度

时间 2019-12-14

标签如何计算两个文档类似繁體版

原文原文链接

1、TF-IDF、余弦类似度、向量空间模型算法

（1）使用TF-IDF算法，找出两篇文章的关键词；spa

（2）每篇文章各取出若干个关键词（好比20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了不文章长度的差别，能够使用相对词频）；.net

（3）生成两篇文章各自的词频向量；blog

（4）计算两个向量的余弦类似度，值越大就表示越类似。io

2、SVD和LSI集合

LSA(潜在语义分析)的基本思路：LSA但愿经过下降传统向量空间的维度来去除空间中的“噪音”，而降维能够经过SVD实现，所以首先对Term-Document矩阵进行SVD分解，而后降维并构造语义空间。co

(奇异值分解详解：http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)生成

3、LDA模型