Scrapy如何实现分布式抓取？

时间 2020-07-18

原文原文链接

能够借助scrapy_redis类库来实现。web 在分布式爬取时，会有master机器和slave机器，其中，master为核心服务器，slave为具体的爬虫服务器。redis 咱们在master服务器上搭建一个redis数据库，并将要抓取的url存放到redis数据库中，全部的slave爬虫服务器在抓取的时候从redis数据库中去连接，因为scrapy_redis自身的队列机制，slave获取