python爬虫去重策略

python爬虫去重策略 一、将访问过的URL保存到数据库中python 二、将访问过的URL保存到set中,只须要o(1)的代价就能够查询URL数据库        1000000000*2byte*50个字符/1024/1024/1024 = 9G python爬虫 三、URL通过md5等方法哈希后保存到set中函数 四、用bitmap方法,将访问过的URL经过hash函数映射到某一位spa
相关文章
相关标签/搜索