scrapy-Redis 分布式爬虫

时间 2021-01-02

原文原文链接

抓取大量数据是时，一个机器爬取过于缓慢，所以需要多台机器一起进行爬取。 1. 使用scrapy框架搭建爬虫项目创建爬取B站视频信息的scrapy爬虫项目 middlewares.py文件设置中间件，定义随机的IP代理防止B站的IP屏蔽处理 2 pipeline.py文件设置连接的数据库，保存采集数据，数据库的属性在settings文件设置。 3 settings.py文件 scrapy项目

>>阅读原文<<