检查网页(url)重复

问题:有10亿个url,每一个url对应一个很是大的网页,如何检测网页是否重复。html 解答:web 网页大,数量多,要把它们载入内存是不现实的。 所以咱们须要一个更简短的方式来表示这些网页。而hash表正是干这事的。 咱们将网页内容作哈希,而不是url,这里不一样url可能对应相同的网页内容。算法 将每一个网页转换为一个哈希值后,咱们就获得了10亿个哈希值, 很明显,两两对比也是很是耗时的O(
相关文章
相关标签/搜索