笔记十四：基于scrapy_redis部署的scrapy分布式爬虫

时间 2020-06-07

标签笔记十四基于 scrapy redis 部署分布式爬虫栏目 Python 繁體版

原文原文链接

你们都知道scrapy是一个快速高效爬去网页信息的爬虫框架，可是当面对大量的信息大量的url（几千几万等以上），用一个服务器爬仍是很慢的，因此尼就出现了一个项目多个服务器共同爬去的方法，就是分布式，即主从服务器，一个主机控制运行暂停等操做，多个从属服务器爬去数据，从属服务器只是用来帮忙爬去数据，从主机服务器那里拿url，再返回响应（包含信息或者新的url），那每一个从属服务器每次拿的url怎么保证

>>阅读原文<<