python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提高爬取效率,请求传参(meta),五大核心组件,中间件

时间 2019-11-16

标签 python 爬虫 scrapy 框架图片手动发送请求 post 提高效率 meta 五大核心组件中间件栏目 Python 繁體版

原文原文链接

#  settings 配置 UA
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

一丶scrapy的图片数据爬取（流数据的爬取）

scrapy中封装好了一个管道类（ImagesPipeline），基于该管道类能够实现图片资源的请求和持久化存储python

编码流程：

爬虫文件中解析出图片的地址
将图片地址封装到item中且提交给管道
管道文件中自定义一个管道类（父类：ImagesPipeline）
重写三个方法：
- def get_media_requests(self,item,info):
- def file_path(self,request,response=None,info=None):
- def item_completed(self,result,item,info):
在配置文件中开启管道且加上IMAGES_STORE = './imgLibs'

在scrapy中如何进行手动请求发送

yield scrapy.Request(url,callback)redis

在scrapy中如何进行post请求的发送？

yield scrapy.FormRequest(url,callback，formdata)cookie

如何对起始的url进行post请求的发送？

重写父类的start_requests(self):
def start_requests(self):
for url in self.start_urls:
yield scrapy.FormRequest(url,callback=self.parse,formdata={})

在scrapy中如何提高爬取数据的效率？

增长并发：
    默认scrapy开启的并发线程为32个，能够适当进行增长。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

下降日志级别：
    在运行scrapy时，会有大量日志信息的输出，为了减小CPU的使用率。能够设置log输出信息为INFO或者ERROR便可。在配置文件中编写：LOG_LEVEL = ‘ERROR’

禁止cookie：
    若是不是真的须要cookie，则在scrapy爬取数据时能够禁止cookie从而减小CPU的使用率，提高爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
    对失败的HTTP进行从新请求（重试）会减慢爬取速度，所以能够禁止重试。在配置文件中编写：RETRY_ENABLED = False

减小下载超时：
    若是对一个很是慢的连接进行爬取，减小下载超时能够能让卡住的连接快速被放弃，从而提高效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 1 超时时间为10s

请求传参（深度爬取）

深度爬取：
- 爬取的数据没有存在同一张页面中。
如何实现请求传参
- Request(url，callback，meta={}):能够将meta字典传递给callback
- callback接收item：response.meta

scrapy的五大核心组件

引擎(Scrapy)
  用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
  用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 能够想像成一个URL（抓取网页的网址或者说是连接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
  用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是创建在twisted这个高效的异步模型上的)
爬虫(Spiders)
  爬虫是主要干活的, 用于从特定的网页中提取本身须要的信息, 即所谓的实体(Item)。用户也能够从中提取出连接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
  负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证明体的有效性、清除不须要的信息。当页面被爬虫解析后，将被发送到项目管道，并通过几个特定的次序处理数据。

scrapy的中间件

有哪些中间件。
- 下载中间件（推荐）
- 爬虫中间件
下载中间件的做用
- 批量拦截全部的请求和响应
为何拦截请求
- 篡改请求的头信息（UA）
  - request.headers['User-Agent'] = 'xxxxx'
- 代理
  - request.meta['proxy'] = 'http://ip:port'
为何拦截响应
- 篡改响应数据
- 篡改响应对象(推荐)

项目:

网易新闻（国内，国际，军事，航空，无人机）新闻数据的标题和内容

分析：
- 1.每个板块下对应的新闻数据都是动态加载出来的
- 2.会对五个板块的响应数据进行数据解析，可是板块对应的响应对象是不包含动态加载的新闻数据，目前
  获取的每个板块对应的响应对象是不知足需求的响应对象！！！
- 3.将不知足需求的5个响应对象（工程中一共会有1+5+n），修改为知足需求。
  - 找到指定的5个不知足需求的响应对象（中间件）
你的redis若是不能够写入字典
- pip install -U redis==2.10.6