Scrapy-redis改造scrapy实现分布式多进程爬取

一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个能够在多个主机上同时运行的分布式爬虫。 参考Scrapy-Redis官方github地址
相关文章
相关标签/搜索