(转)simhash进行文本查重

有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串?   大规模网页的近似查重 主要翻译自WWW07的 Detecting Near-Duplicates for Web Crawling  WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。 当爬虫在抓取网页时必须很快能在海量文本集中
相关文章
相关标签/搜索