基于Redis的三种分布式爬虫策略

时间 2019-12-14

原文原文链接

前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。我的觉得分布式爬虫须要考虑的点主要有如下几个：web 爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的状况下实现起来越简单/方便越好最好支持“断点续爬”功能 Python分布式爬虫比较经常使用的应该是scrapy框架加上Redis内存数据库，中间的调度任务等用scrapy-redis模

>>阅读原文<<