scrapy-Redis 分布式爬虫

抓取大量数据是时,一个机器爬取过于缓慢,所以需要多台机器一起进行爬取。 1. 使用scrapy框架搭建爬虫项目 创建爬取B站视频信息的scrapy爬虫项目 middlewares.py文件 设置中间件,定义随机的IP代理 防止B站的IP屏蔽处理 2 pipeline.py文件 设置连接的数据库,保存采集数据,数据库的属性在settings文件设置。 3 settings.py文件 scrapy项目
相关文章
相关标签/搜索