haipproxy学习分析-haipproxy架构及流程说明

这篇文章的目的是阐述haipproxy的主要架构和流程。该项目关键部分是 基于Scrapy和Redis的分布式爬虫,用作IP抓取和校验,对应于项目的crawler 基于Redis实现的分布式任务调度工具,对应于项目的scheduler和redis_util.py Crawler分为代理抓取和校验,两者实现思想类似,主要使用Scrapy的spider_idle信号和DontCloseSpider异常
相关文章
相关标签/搜索