文本类似度的计算

时间 2019-12-08

标签文本类似计算繁體版

原文原文链接

文本类似度的计算方法有不少，这里简单记录一下code

传统的VSM模型：文档

计算文本类似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词，就是多少维度
每一个文档中的词用tfidf来生成权重，用权重来表示文档的向量
生成向量后，就能够计算类似度了，用夹角余弦
固然这里词的权重的生成方式还有不少，也能够用其余的

LSI(Latent semantic indexing) 的方式方法

这个的方式也比较简单，主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
而后用svd分解矩阵获得三个矩阵
C = USV
而后每一个文档向量分别和USV相乘获得向量
文本类似度计算仍是夹角余弦
至于下降维度，就要对S进行奇异值削减了