【转】simhash与Google的网页去重

Simhash    传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文 章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜 索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-b
相关文章
相关标签/搜索