爬虫去重方法和编码小结

爬虫去重方法 ①将访问过的url保存到数据库中 ②将访问过的url保存到set中,只需要o(1)的代价就可以查询url ③url经过md5等方法哈希后保存到set中④用bitmap方法, 将访问过的url通过hash函数映射到某一位 ⑤bloomfilter方法对bitmap进行改进, 多重hash函数降低冲突 字符串编码 ①计算机只能处理数字, 文本转换为数字才能处理。计算机中8个bit作为一个
相关文章
相关标签/搜索