Python之分布式爬虫

什么是分布式爬虫? 通俗来讲,分布式爬虫就是多台机器多个spider对多个url的同时处理操作,分布式的方式可以极大提高程序的抓取效率   分布式爬虫一般要配合redis数据库使用,原因有3点: (1)redis数据库可以共享队列 (2)重写Scheduler,让其无论是去重还是任务都去访问共享队列 (3)为Scheduler定制去重规则 redis数据库的安装和使用见下文   分布式爬虫的结构:
相关文章
相关标签/搜索