simhash简介

先贴一张网上的图片: 解释一下图片:这里feature可以指一篇文档分词后的某个词,即将文档中的某个词作为一个特征。weight是这个词的权重,这里可以是这个词在这个句子中出现的次数。 这里的hash算法就是传统的hash算法,通过调用一个hash函数实现的。 simhash是为了计算一篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来
相关文章
相关标签/搜索