终极大招——Scrapy框架

时间 2019-11-07

标签终极 scrapy 框架栏目 Python 繁體版

原文原文链接

Scrapy框架

　　Scrapy 是一个开源和协做的框架，其最初是为了页面抓取 (更确切来讲, 网络抓取 )所设计的，使用它能够以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分普遍，可用于如数据挖掘、监测和自动化测试等领域，也能够应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。html

　　Scrapy 是基于twisted框架开发而来，因此要使用 Scrapy 首先得安装 twisted 。twisted 是一个流行的事件驱动的python网络框架。所以 Scrapy 使用了一种非阻塞（又名异步）的代码来实现并发。Scrapy 的官网地址为：https://docs.scrapy.org/en/latest/topics/architecture.htmlpython

根据官网，咱们知道 Scrapy 总体架构大体由7部分组成：linux

引擎(EGINE)：引擎负责控制系统全部组件之间的数据流，并在某些动做发生时触发事件。有关详细信息，以后会在数据流部分提到。
调度器(SCHEDULER)：用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 能够想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。
爬虫(SPIDERS)：SPIDERS是开发人员自定义的类，用来解析responses，而且提取items，或者发送新的请求。
下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，下载器是创建在twisted这个高效的异步模型上的。
项目管道(ITEM PIPLINES)：在items被提取后负责处理它们，主要包括清理、验证、持久化（好比存到数据库）等操做。
下载器中间件(Downloader Middlewares)：位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，你可用该中间件作如下几件事：
1. 在将请求发送到下载器以前处理请求（即在Scrapy将请求发送到网站以前）。
2. 在传递给蜘蛛以前改变接收到的响应;
3. 发送新的请求，而不是将接收到的响应传递给蜘蛛;
4. 向蜘蛛传递响应而不须要获取网页;
5. 去除某些请求
爬虫中间件(Spider Middlewares)：位于EGINE和SPIDERS之间，主要工做是处理SPIDERS的输入（即responses）和输出（即requests）。

由上图的总体架构能够看出，Scrapy中的数据流由执行引擎控制，以下所示：

引擎(Engine)获取最初的请求由爬虫(Spider)抓取。　
引擎(Engine)在调度程序(Scheduler)中调度请求，并要求抓取下一个请求。
调度程序(Scheduler)将下一个请求返回给引擎(Engine)。
引擎(Engine)将请求经过下载器中间件( Downloader Middlewares )发送到下载器( Downloader)（详情请参阅process_request（））。
一旦页面完成下载，下载器( Downloader)会生成一个响应（使用该页面）并经过下载器中间件( Downloader Middlewares )将其发送到引擎(Engine)。（详情请参阅process_response（））。
引擎(Engine)从下载器( Downloader)接收到响应后经过爬虫中间件( Spider Middlewares )将其发送给爬虫(Spider)进行处理。（详情请参阅process_spider_input（））。
爬虫(Spider)处理响应，并经过爬虫中间件( Spider Middlewares )将抓取的项目和新请求（后续）返回给引擎(Engine)。（详情请参阅process_spider_output（））
引擎(Engine)将已处理的项目发送到项目管道(ITEM PIPLINES)，而后将已处理的请求发送到调度程序(Scheduler)，而后询问是否有下一个请求须要进行爬网。
如有请求则重复以上步骤，直到没有更多的调度请求。

Scrapy 安装

windows安装：程序员

    一、pip3 install wheel #安装后，便支持经过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    五、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
    六、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    七、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
　　#以上步骤是由于scrapy是基于twisted实现的，因此要先安装twisted
    八、pip3 install scrapy

linux安装：ajax

pip3 install scrapy

命令行工具

　　安装完scrapy后咱们最关心的就是如何建立一个新的项目，而后展开爬虫行动。这里就须要用到命令行工具，首先咱们来讲建立项目。shell

startproject #建立项目

　　命令行分为全局命令（Global commands）和项目命令（Project-only commands）。全局命令指在任何位置均可以调用，而项目命令只能在项目中使用。数据库

#1 查看帮助
    scrapy -h
    scrapy <command> -h

#2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不须要
    Global commands:
        startproject #建立项目
        genspider    #建立爬虫程序
        settings     #若是是在项目目录下，则获得的是该项目的配置
        runspider    #运行一个独立的python文件，没必要建立项目
        shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否
        fetch        #独立于程单纯地爬取一个页面，能够拿到请求头
        view         #下载完毕后直接弹出浏览器，以此能够分辨出哪些数据是ajax请求
        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本
    Project-only commands:
        crawl        #运行爬虫，必须建立项目才行，确保配置文件中ROBOTSTXT_OBEY = False
        check        #检测项目中有无语法错误
        list         #列出项目中所包含的爬虫名
        edit         #编辑器，通常不用
        parse        #scrapy parse url地址 --callback 回调函数  #以此能够验证咱们的回调函数是否正确
        bench        #scrapy bentch压力测试

全局命令和项目命令

　　刚才咱们用到的建立项目的命令是一条全局命令，一般咱们会在指定位置建立项目，因此咱们先cd 文件路径切到指定位置后再执行“scrapy startproject 项目名”就能建立一个爬虫项目。windows

建立项目示例：浏览器

#cd 项目所在路径
scrapy startproject AMAZON#这里以爬取亚马逊举例
#这时候会有一出现AMAZON的文件夹和一个scrapy.cfg文件，scrapy.cfg里面写的是项目的部署信息，爬虫相关的配置信息在settings.py文件中

cd AMAZON#切到项目路径下
scrapy genspider amazon www.amazon.cn#建立一只叫amazon的蜘蛛，爬取的网页的域名为www.amazon.cn
#这时候在AMAZON文件夹下的spiders文件夹下就会多一个amazon.py文件

#amazon.py中：
# -*- coding: utf-8 -*-
import scrapy

#继承了scrapy.Spider类的自定义类
class AmazonSpider(scrapy.Spider):
    name = 'amazon'#爬虫名字，不可改
    allowed_domains = ['www.amazon.cn']#域名
    start_urls = ['http://www.amazon.cn/']#不设置url时默认爬这个网页

    def parse(self, response):
    #解析操做
        pass

"""
　　爬虫是一项不违法但也容易违法的行为，有些公司会不想让你爬，因此有一个ROBOTSTXT_OBEY协议，规定了如该公司的网站不容许你爬的话会另外开一个
　　专门接口放入不重要的信息用于给你爬取。在settings,py中有一条ROBOTSTXT_OBEY的配置，默认为True就是遵循该协议，咱们处理爬取的数据的行为
　　不违法的状况下能够将其设置为False，以爬取全部数据
"""

注意：Scrapy默认只能在CMD中执行爬虫程序，若想在Pycharm中运行需在settings.py文件同级的目录下新建entrypoint.py，里面写入网络

#在项目目录下新建：entrypoint.py
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'amazon','--nolog'])#执行这条会打印默认的日志信息
# execute(['scrapy', 'crawl', 'amazon',])#执行这条为不打印日志信息

#一、执行全局命令：请确保不在某个项目的目录下，排除受该项目配置的影响
scrapy startproject MyProject

cd MyProject
scrapy genspider baidu www.baidu.com

scrapy settings --get XXX #若是切换到项目目录下，看到的则是该项目的配置

scrapy runspider baidu.py

scrapy shell https://www.baidu.com
    response
    response.status
    response.body
    view(response)
    
scrapy view https://www.taobao.com #若是页面显示内容不全，不全的内容则是ajax请求实现的，以此快速定位问题

scrapy fetch --nolog --headers https://www.taobao.com

scrapy version #scrapy的版本

scrapy version -v #依赖库的版本


#二、执行项目命令：切到项目目录下
scrapy crawl baidu
scrapy check
scrapy list
scrapy parse http://quotes.toscrape.com/ --callback parse
scrapy bench

CMD中执行项目的命令（通常咱们都在pycharm中操做）

import sys,os
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

关于windows编码问题

项目文件的结构以及各文件的做用以下图所示

spiders文件夹做用

　　spiders文件夹的内容是由程序员自定义的多个类组成，用于爬取一个或多个网址，具体包括如何执行爬取任务而且如何从页面中提取结构化的数据。换句话说，Spiders是你为了一个特定的网址或一组网址自定义爬取和解析页面行为的地方。

　　Spiders中的类封装了发起请求的方法和回调函数的方法，回调函数能够是多个但每个请求都必须一个绑定回调函数以处理抓取到的网页的内容。

　　默认生成的“def start_requests(self):” 只执行一次默认从start_urls列表中得到url地址来生成Request请求，默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发。

　　回调函数用于解析response并返回值，返回值可使4种，一般Scrapy用自带的Selectors解析内容，固然咱们也可使用Beutifulsoup，lxml或其余的。返回Item对象的话会经过项目管道（Item Pipeline）组件存到数据库或以文件的形式导出。

四种返回值：

1. 包含解析数据的字典
2. Item对象
3. 新的Request对象（新的Requests也须要指定一个回调函数）
4. 可迭代对象（包含Items或Request）

Spiders给咱们提供了5个类

scrapy.spiders.Spider #scrapy.Spider等同于scrapy.spiders.Spider，使咱们用的最多的类
scrapy.spiders.CrawlSpider
scrapy.spiders.XMLFeedSpider
scrapy.spiders.CSVFeedSpider
scrapy.spiders.SitemapSpider

#可链式操做
from scrapy.spiders import Spider,CrawlSpider,XMLFeedSpider,CSVFeedSpider,SitemapSpider