scrapy下载中间件结合selenium抓取全国空气质量检测数据

时间 2020-05-13

标签 scrapy 下载中间件结合 selenium 抓取全国空气质量检测数据栏目 Python 繁體版

原文原文链接

一、所需知识补充

1.下载中间件经常使用函数

process_request(self, request, spider):
- 当每一个request经过下载中间件是，该方法被调用
- process_request()函数必须返回一下其中之一：一个None，一个Response对象，一个Request对象或raise IgnoreRequest。
  若是返回None,Scrapy将继续处理该request，执行其余的中间件中相应的方法，直达合适的下载器处理函数（download handler）被调用，该request被执行（其response被下载）;
  若是返回的是Response对象，scrapy将不会调用任何其余的process_request()或process_exception()方法，或相应的下载函数，其将返回该response，已安装的中间件的process_response()方法则会在每一个response返回时被调用；
  若是其返回Request对象，scrapy则中止调用process_request()方法并从新调度返回的request。小心返回的request被执行后，相应的中间件链将会更具下载的response被调用。
  若是其raise一个IgnoreRequest异常，则安装的下载中间件的process_exception()方法会被调用。若是没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用，若是没有代码吹抛出的异常，则该异常被忽略且不记录（不一样于其余异常那样）
- 参数:
  request(Request对象)--处理的request
  spider(Spider对象)--该request对应的spider
process_response(self, request, spider):
- 当下载器完成http请求，传递响应给引擎的时候调用
- process_response()必须返回如下其中之一：返回一个Request对象或raise一个IgnorRequest异常
  若是其返回一个Response（能够与传入的response相同，也能够是全新的对象），该response会被在链中其余中间件的process_response()方法处理。
  若是其返回一个Request对象，则中间件链中止，返回的request会被从新调度下载，处理相似于process_request()返回request所作的那样。
  若是其抛出一个IgnorRequest异常，则调用request的errback(Request.errback)。若是没有代码处理抛出的异常，则该异常被忽略且不记录。
- 参数：
  request(Request对象)--response所对应的request
  response(Response对象)--被处理的response对象
  spider(Spider对象)--response所对应的spider

2.scrapy对接selenium

scrapy经过设置setting.py文件里的DOWNLOADER_MIDDLEWARES添加本身编写的下载中间件，一般将运用到的selenium相关内容写在这个下载中间件中，具体后面会有代码说明。php

selenium的基本使用参见：http://www.cnblogs.com/pythoner6833/p/9052300.htmlhtml

3.经常使用settings的内置设置

BOT_NAME
默认：“scrapybot”，使用startproject命令建立项目时，其被自动赋值
CONCURRENT_ITEMS
默认为100，Item Process(即Item Pipeline)同时处理（每一个response的）item时最大值
CONCURRENT_REQUEST
默认为16，scrapy downloader并发请求（concurrent requests）的最大值
LOG_ENABLED
默认为True,是否启用logging
DEFAULT_REQUEST_HEADERS
默认以下：{'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en',}
scrapy http request使用的默认header
LOG_ENCODING
默认utt-8，logging中使用的编码
LOG_LEVEL
默认“DEBUG”，log中最低级别，可选级别有：CRITICAL,ERROR,WARNING,DEBUG
USER_AGENT
默认：“Scrapy/VERSION(....)”，爬取的默认User-Agent,除非被覆盖
COOKIES_ENABLED=False，禁用cookies

PEOXIE：代理设置
例如：

PROXIES = [
  {'ip_port': '111.11.228.75:80', 'password': ''},
  {'ip_port': '120.198.243.22:80', 'password': ''},
  {'ip_port': '111.8.60.9:8123', 'password': ''},
  {'ip_port': '101.71.27.120:80', 'password': ''},
  {'ip_port': '122.96.59.104:80', 'password': ''},
  {'ip_port': '122.224.249.122:8088', 'password':''},
]

参考连接：node

http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

二、案例分析

分析：python

一共须要抓取三个页面，首先抓取第一个页面的全部城市名及对应的连接，地址：https://www.aqistudy.cn/historydata/git

而后抓取具体的，每一个城市，每月份的信息（就是年月），地址：https://www.aqistudy.cn/historydata/monthdata.php?city=%E5%AE%89%E5%BA%B7，这里只是其中一个城市github

最后抓取每月份中，每一天的数据，示例地址：https://www.aqistudy.cn/historydata/daydata.php?city=%E5%AE%89%E5%BA%B7&month=2015-01web

其中，第一个页面为静态页面，直接抓取上面的城市信息便可；第二个和第三页面时动态页面，采用selenium结合Phantomjs抓取（也能够用Google浏览器。）json

1. 建立一个项目

scrapy startproject ChinaAir

2.明确须要抓取的字段

在items.py文件中定义须要抓取的字段，编写相关代码。浏览器

# -*- coding: utf-8 -*-

# Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html

import scrapy class ChinaairItem(scrapy.Item): # define the fields for your item here like:
    # name = scrapy.Field()
    """ 首先明确抓取目标，包括城市，日期，指标的值 """
    # 城市
    city = scrapy.Field() # 日期
    date = scrapy.Field() # 空气质量指数
    AQI = scrapy.Field() # 空气质量等级
    level = scrapy.Field() # pm2.5的值
    PM2_5 = scrapy.Field() # pm10
    PM10 = scrapy.Field() # 二氧化硫
    SO2 = scrapy.Field() # 一氧化碳
    CO = scrapy.Field() # 二氧化氮
    NO2 = scrapy.Field() # 臭氧浓度
    O3_8h = scrapy.Field() # 数据源(数据来源)
    source = scrapy.Field() # 抓取时间
    utc_time = scrapy.Field()

3.生成爬虫文件

建立名为airChina的爬虫，并给定初始地址。cookie

scrapy genspider airChina https://www.aqistudy.cn/historydata/

来到爬虫文件，开始编写爬虫部分的代码。

4.编写爬虫

# -*- coding: utf-8 -*-
import scrapy from ChinaAir.items import ChinaairItem class AirchinaSpider(scrapy.Spider): name = 'airChina' allowed_domains = ['aqistudy.cn'] base_url = "https://www.aqistudy.cn/historydata/"
    # 抓取首页
    start_urls = [base_url] def parse(self, response): # 拿到页面的全部城市名称连接
        url_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/@href').extract()# 拿到页面的全部城市名
        city_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/text()').extract()# 将城市名及其对应的连接，进行一一对应
        for city, url in zip(city_list, url_list): # 拼接该城市的连接
            link = self.base_url + url yield scrapy.Request(url=link, callback=self.parse_month, meta={"city": city})

　　def parse_month(self, response):
　　　　pass

在yield后，来到下载中间件文件，因为每个请求都要通过下载中间件，所以，从第一个页面中解析到的url，请求时，能够在下载中间件中进行必定的操做，如利用selenium进行请求。

来到middlerwares.py文件，删掉全部已写好的内容，从新编写咱们须要的内容。

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware # # See documentation in: # https://doc.scrapy.org/en/latest/topics/spider-middleware.html

import random # 导入User-Agent列表
from ChinaAir.settings import USER_AGENT as ua_list # class UserAgentMiddlerware(object): # """ # 定义一个中间件，给每个请求随机选择USER_AGENT # 注意，不要忘了在setting文件中打开DOWNLOADER_MIDDLERWARE的注释 # """ # def process_request(self, request, spider): # # # 从ua_list中随机选择一个User-Agent # user_agent = random.choice(ua_list) # # 给请求添加头信息 # request.headers['User-Agent'] = user_agent # # 固然，也能够添加代理ip，方式以下，此处不用代理，仅说明代理使用方法 # # request.meta['proxy'] = "..." # print(request.headers['User-Agent'])

import time import scrapy from selenium import webdriver class SeleniumMiddlerware(object): """ 利用selenium，获取动态页面数据 """
    def process_request(self, request, spider): # 判断请求是否来自第二个页面，只在第二个页面调用浏览器
        if not request.url == "https://www.aqistudy.cn/historydata/": # 实例化。selenium结合谷歌浏览器，
            self.driver = webdriver.PhantomJS() # 实在受不了每次测试都打开浏览器界面，因此换成无界面的了 # 请求
 self.driver.get(request.url) time.sleep(2) # 获取请求后获得的源码
            html = self.driver.page_source # 关闭浏览器
 self.driver.quit() # 构造一个请求的结果，将谷歌浏览器访问获得的结果构形成response，并返回给引擎
            response = scrapy.http.HtmlResponse(url=request.url, body=html, request=request, encoding='utf-8') return response

其中，注释部分为，下载中间件给每个请求分配一个随机的User-Agent及代理IP的方法,固然，此处用不上，所以，不用管。

因为每一次产生request请求，都要通过下载中间件，所以，写一个断定条件，只有是来自第二个页面的请求时，才采用selenium来执行。

代码的最后一行，下载中间件将selenium请求后的结果，再构形成一个response，返回给引擎，继续后续处理。注意，要在settings.py文件中将下载中间件的注释打开。

拿到第二页返回的response时，继续来到爬虫文件，对response进行解析和提取第三页中须要的url，代码以下：

class AirchinaSpider(scrapy.Spider): name = 'airChina' allowed_domains = ['aqistudy.cn'] base_url = "https://www.aqistudy.cn/historydata/"
    # 抓取首页
    start_urls = [base_url] def parse(self, response): # 拿到页面的全部城市名称连接
        url_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/@href').extract()[:1] # 拿到页面的全部城市名
        city_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/text()').extract()[:1] # 将城市名及其对应的连接，进行一一对应
        for city, url in zip(city_list, url_list): # 拼接该城市的连接
            link = self.base_url + url yield scrapy.Request(url=link, callback=self.parse_month, meta={"city": city}) def parse_month(self, response): """ 拿到每一个城市的，每月份的数据 此页面为动态页面，这里利用selenium结合浏览器获取动态数据 所以在下载中间件中添加中间件代码 :param response: :return: """
        # 获取城市每月份的连接
        url_list = response.xpath('//tr/td/a/@href').extract()[:1] for url in url_list: url = self.base_url + url  # 构造该url
            yield scrapy.Request(url=url, meta={'city': response.meta['city']}, callback=self.parse_day)

拿到第二页的数据后，解析出第三页请求的url后，回调，并提取出须要抓取的数据，就完成了爬虫部分的代码。所以，整个爬虫文件的代码以下：

# -*- coding: utf-8 -*-
import scrapy from ChinaAir.items import ChinaairItem class AirchinaSpider(scrapy.Spider): name = 'airChina' allowed_domains = ['aqistudy.cn'] base_url = "https://www.aqistudy.cn/historydata/"
    # 抓取首页
    start_urls = [base_url] def parse(self, response): # 拿到页面的全部城市名称连接
        url_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/@href').extract()[:1] # 拿到页面的全部城市名
        city_list = response.xpath('//div[@class="all"]/div[@class="bottom"]//a/text()').extract()[:1] # 将城市名及其对应的连接，进行一一对应
        for city, url in zip(city_list, url_list): # 拼接该城市的连接
            link = self.base_url + url yield scrapy.Request(url=link, callback=self.parse_month, meta={"city": city}) def parse_month(self, response): """ 拿到每一个城市的，每月份的数据 此页面为动态页面，这里利用selenium结合浏览器获取动态数据 所以在下载中间件中添加中间件代码 :param response: :return: """
        # 获取城市每月份的连接
        url_list = response.xpath('//tr/td/a/@href').extract()[:1] for url in url_list: url = self.base_url + url  # 构造该url
            yield scrapy.Request(url=url, meta={'city': response.meta['city']}, callback=self.parse_day) def parse_day(self, response): """ 获取每一天的数据 :param response: :return: """ node_list = response.xpath('//tr') node_list.pop(0) for node in node_list: # 解析目标数据
            item = ChinaairItem() item['city'] = response.meta['city'] item['date'] = node.xpath('./td[1]/text()').extract_first() item['AQI'] = node.xpath('./td[2]/text()').extract_first() item['level'] = node.xpath('./td[3]/text()').extract_first() item['PM2_5'] = node.xpath('./td[4]/text()').extract_first() item['PM10'] = node.xpath('./td[5]/text()').extract_first() item['SO2'] = node.xpath('./td[6]/text()').extract_first() item['CO'] = node.xpath('./td[7]/text()').extract_first() item['NO2'] = node.xpath('./td[8]/text()').extract_first() item['O3_8h'] = node.xpath('./td[9]/text()').extract_first() yield item

5.编写pipelines文件

抓取到数据后，就能够开始写保存数据的逻辑了，这里仅仅将数据写成json格式的数据。

# -*- coding: utf-8 -*-

# Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json from datetime import datetime class ChinaAirPipeline(object): def process_item(self, item, spider): item["source"] = spider.name item['utc_time'] = str(datetime.utcnow()) return item class ChinaAirJsonPipeline(object): def open_spider(self, spider): self.file = open('air.json', 'w', encoding='utf-8') def process_item(self, item, spider): content = json.dumps(dict(item), ensure_ascii=False) + '\n' self.file.write(content) def close_spider(self, spider): self.file.close()

ChinaAirPipeline是在接收到管道丢过来的item后，继续添加两个自读，抓取时间和数据的来源，并在添加后，继续经过管道丢给下面的ChinaAirJsonPipelines文件，进行保存。

其中，不要忘了在settings.py文件中注册管道信息。

6.运行爬虫，抓取数据

scrapy crawl airChina

三、完整代码

参见：https://github.com/zInPython/ChinaAir/tree/master/ChinaAir