布隆去重

去重策略 1) 使用scrapy自带的set集合去重,当程序结束的时候会被清空,缺点:再次运行会导致数据重复。 2) 使用mysql做去重,对url地址进行md5,base64加密,加密之后会得到一串字符,判断字符串 是否在mysql表中,如果在表示已经爬取过了,如果不在,表示没有爬取,执行请求,将加密后的url 地址存入表中。缺点: 但是这个方法对mysql压力过大,导致崩溃,不推荐 3)使用s
相关文章
相关标签/搜索