Scrapy_Redis第一讲

分布式爬虫 状态管理器可以部署在A,B,C任何一台上,也可以部署在另外的服务器上。URL的分配和 去重都是通过我们的状态管理器来进行管理的     分布式爬虫的优点: 1.充分利用多机器的宽带加速爬取 2.充分利用多机的爬取速度   我们在使用SCHEDULER时是一种单机状态,scrapy在 通信时使用的是queue,这个是存在某台机器的内存上的,不 支持分布式。   现在我们做分布式的,那么我
相关文章
相关标签/搜索