Detecting Near Duplicates for Web Crawling - simhash与重复信息识别

随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。但是同样的在另外方面,如何快速检索相似文章需求也是很大的。造成网页近重复的可能原因主要包括:  镜像网站 内容复制 嵌入广告 计数改变 少量修改 一个简化的爬虫系
相关文章
相关标签/搜索