scrapy如何实现分布式爬虫

使用scrapy爬虫的时候,记录一下如何分布式爬虫问题:html 关键在于多台主机协做的关键:共享爬虫队列redis 主机:维护爬取队列 从机:负责数据抓取,数据处理,数据存储数据库 队列如何维护:Redis队列 Redis 非关系型数据库,key-value形式存储,结构灵活。是内存中的数据结构存储系统,处理速度快,性能好 提供队列,集合等多种存储结构,方便队列维护数据结构 怎么去重 Redis
相关文章
相关标签/搜索