scrapy实现增量式爬取

实现爬虫的增量式爬取有两种方法,一是在得到页面解析的内容后判断该内容是否已经被爬取过,二是在发送请求以前判断要被请求的url是否已经被爬取过,前一种方法能够感知每一个页面的内容是否发生变化,能获取页面新增或者变化的内容,可是因为要对每一个url发送请求,因此速度比较慢,而对网站服务器的压力也比较大,后一种没法得到页面变化的内容,可是由于不用对已经爬取过的url发送请求,因此对服务器压力比较小,速度
相关文章
相关标签/搜索