文本类似度的计算方法有不少,这里简单记录一下code
传统的VSM模型:文档
计算文本类似度的时候主要是使用tfidf来协助生成文档向量 整个文档集合有多少词,就是多少维度 每一个文档中的词用tfidf来生成权重,用权重来表示文档的向量 生成向量后,就能够计算类似度了,用夹角余弦 固然这里词的权重的生成方式还有不少,也能够用其余的
LSI(Latent semantic indexing) 的方式方法
这个的方式也比较简单,主要是先生成文档 - 词矩阵 矩阵中的内容就是文档中出现该词的频数 而后用svd分解矩阵获得三个矩阵 C = USV 而后每一个文档向量分别和USV相乘获得向量 文本类似度计算仍是夹角余弦 至于下降维度,就要对S进行奇异值削减了