Scrapy如何实现分布式抓取?

能够借助scrapy_redis类库来实现。web 在分布式爬取时,会有master机器和slave机器,其中,master为核心服务器,slave为具体的爬虫服务器。redis 咱们在master服务器上搭建一个redis数据库,并将要抓取的url存放到redis数据库中,全部的slave爬虫服务器在抓取的时候从redis数据库中去连接,因为scrapy_redis自身的队列机制,slave获取
相关文章
相关标签/搜索