simhash文本类似度计算

常见文本类似度计算方法: 1 向量空间模型VSM(Vector Space Model)。使用VSM计算类似度,先对文本进行分词,而后创建文本向量,把类似度的计算转换成某种特征向量距离的计算,好比余弦角、欧式距离、Jaccard类似系数等。这种方法存在很大一个问题:须要对文本两两进行类似度比较,没法扩展到海量文本的处理。 使用介绍能够参考 Corpora and Vector Spaces, 以及
相关文章
相关标签/搜索