TF-IDF与余弦类似性的应用（二）：找出类似文章

时间 2019-11-13

标签 idf 余弦类似应用找出文章繁體版

原文原文链接

上一次，我用TF-IDF算法自动提取关键词。html

今天，咱们再来研究另外一个相关的问题。有些时候，除了找到关键词，咱们还但愿找到与原文章类似的其余文章。好比，"Google新闻"在主新闻下方，还提供多条类似的新闻。算法

为了找出类似的文章，须要用到"余弦类似性"（cosine similiarity）。下面，我举一个例子来讲明，什么是"余弦类似性"。htm

为了简单起见，咱们先从句子着手。blog

　　句子A：我喜欢看电视，不喜欢看电影。ip

　　句子B：我不喜欢看电视，也不喜欢看电影。get

请问怎样才能计算上面两句话的类似程度？数学

基本思路是：若是这两句话的用词越类似，它们的内容就应该越类似。所以，能够从词频入手，计算它们的类似程度。it

第一步，分词。方法

　　句子A：我/喜欢/看/电视，不/喜欢/看/电影。im

　　句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出全部的词。

　　我，喜欢，看，电视，电影，不，也。

第三步，计算词频。

　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

第四步，写出词频向量。

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的类似程度。

咱们能够把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不一样的方向。两条线段之间造成一个夹角，若是夹角为0度，意味着方向相同、线段重合；若是夹角为90度，意味着造成直角，方向彻底不类似；若是夹角为180度，意味着方向正好相反。所以，咱们能够经过夹角的大小，来判断向量的类似程度。夹角越小，就表明越类似。

以二维空间为例，上图的a和b是两个向量，咱们要计算它们的夹角θ。余弦定理告诉咱们，能够用下面的公式求得：

假定a向量是[x1, y1]，b向量是[x2, y2]，那么能够将余弦定理改写成下面的形式：

数学家已经证实，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, ..., An] ，B是 [B1, B2, ..., Bn] ，则A与B的夹角θ的余弦等于：

使用这个公式，咱们就能够获得，句子A与句子B的夹角的余弦。

余弦值越接近1，就代表夹角越接近0度，也就是两个向量越类似，这就叫"余弦类似性"。因此，上面的句子A和句子B是很类似的，事实上它们的夹角大约为20.3度。

由此，咱们就获得了"找出类似文章"的一种算法：

　　（1）使用TF-IDF算法，找出两篇文章的关键词；

　　（2）每篇文章各取出若干个关键词（好比20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了不文章长度的差别，可使用相对词频）；

　　（3）生成两篇文章各自的词频向量；

　　（4）计算两个向量的余弦类似度，值越大就表示越类似。

"余弦类似度"是一种很是有用的算法，只要是计算两个向量的类似程度，均可以采用它。