分布式爬虫原理之分布式爬虫原理

咱们在前面已经实现了Scrapy微博爬虫,虽然爬虫是异步加多线程的,可是咱们只能在一台主机上运行,因此爬取效率仍是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提升爬取的效率。 html 1、分布式爬虫架构 在了解分布式爬虫架构以前,首先回顾一下Scrapy的架构,以下图所示。数据库 Scrapy单机爬虫中有一个本地爬取队列Queue,这个队列是利用deque模块实现的。
相关文章
相关标签/搜索