笔记十四:基于scrapy_redis部署的scrapy分布式爬虫

你们都知道scrapy是一个快速高效爬去网页信息的爬虫框架,可是当面对大量的信息大量的url(几千几万等以上),用一个服务器爬仍是很慢的,因此尼就出现了一个项目多个服务器共同爬去的方法,就是分布式,即主从服务器,一个主机控制运行暂停等操做,多个从属服务器爬去数据,从属服务器只是用来帮忙爬去数据,从主机服务器那里拿url,再返回响应(包含信息或者新的url),那每一个从属服务器每次拿的url怎么保证
相关文章
相关标签/搜索