答:scrapy自己自带一个去重中间件,scrapy源码中能够找到一个dupfilters.py去重器,里面有个方法叫作request_seen,他在scheduler(发起请求的第一时间)的时候被调用,它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。scrapy
就是给每个传递过来的url生成一个固定长度的惟一哈希值,可是这种量级千万到亿的内存是能够应付的post
答:juejin.im/post/5c80b7…url