scrapy实现增量式爬取

时间 2020-01-18

标签 scrapy 实现增量栏目 Python 繁體版

原文原文链接

实现爬虫的增量式爬取有两种方法，一是在得到页面解析的内容后判断该内容是否已经被爬取过，二是在发送请求以前判断要被请求的url是否已经被爬取过，前一种方法能够感知每一个页面的内容是否发生变化，能获取页面新增或者变化的内容，可是因为要对每一个url发送请求，因此速度比较慢，而对网站服务器的压力也比较大，后一种没法得到页面变化的内容，可是由于不用对已经爬取过的url发送请求，因此对服务器压力比较小，速度

>>阅读原文<<