Detecting Near-Duplicates for Web Crawling

时间 2020-05-08

标签 detecting duplicates web crawling 栏目 HTML 繁體版

原文原文链接

ABSTRACTweb 在网页上有不少类似的文档。好比说，两篇文章只有在显示广告这一小部分是互不相同的。但这些不一样的地方，对于网页搜索来讲，是可有可无的。所以，若是该网络爬虫技术能够评估最新抓取的网页与以前抓取的网页是否类似，那么它的“质量（相似..就是升级版！性能提高）”就会提高。算法在开发一个在数百亿网页栈中检测类似文章的系统过程当中，咱们作了两项研究贡献。第一个，咱们证实了Charika

>>阅读原文<<