分布式爬虫原理

1、分布式爬虫架构 在了解分布式爬虫架构以前,首先回顾一下Scrapy的架构,以下图所示。html Scrapy单机爬虫中有一个本地爬取队列Queue,这个队列是利用deque模块实现的。若是新的Request生成就会放到队列里面,随后Request被Scheduler调度。以后,Request交给Downloader执行爬取,简单的调度架构以下图所示。web 若是两个Scheduler同时从队列
相关文章
相关标签/搜索