Scrapy框架的使用之Scrapy入门

时间 2019-11-17

标签 scrapy 框架使用入门栏目 Python 繁體版

原文原文链接

接下来介绍一个简单的项目，完成一遍Scrapy抓取流程。经过这个过程，咱们能够对Scrapy的基本用法和原理有大致了解。

一，准备工做

本节要完成的任务以下。

建立一个Scrapy项目。
建立一个蜘蛛来抓取站点和处理数据。
经过命令行将抓取的内容导出。
将抓取的内容保存的到的MongoDB数据库。

二，准备工做

咱们须要安装好Scrapy框架，MongoDB的和PyMongo库。

三，建立项目

建立一个Scrapy项目，文件项目能够直接用

scrapy

命令生成，命令以下所示：

scrapy startproject教程复制代码

这个命令能够在任意文件夹运行若是提示权限问题，能够加须藤运行该命令这个命令将会建立一个名为教程的文件夹，文件夹结构以下所示。：

scrapy.cfg＃Scrapy部署时的配置文件
教程＃项目的模块，须要从这里引入
    __init__.py    
    items.py＃Items的定义，定义爬取的数据结构
    middlewares.py＃Middlewares的定义，定义爬取时的中间件
    pipelines.py＃管道的定义，定义数据管道
    settings.py＃配置文件
    蜘蛛＃放置蜘蛛的文件夹
    __init__.py复制代码

四，建立蜘蛛

蜘蛛是本身定义的类，Scrapy用它来从网页里抓取内容，并解析抓取的结果。不过这个类必须继承Scrapy提供的蜘蛛类

scrapy.Spider

，还要定义蜘蛛的名称和起始请求，以及怎样处理爬取后的结果的方法。

也可使用命令行建立一个蜘蛛好比要生成行情这个蜘蛛，能够执行以下命令：

光盘教程
scrapy genspider报价复制代码

进入刚才建立的教程文件夹，执行而后

genspider

命令。第一个参数是蜘蛛的名称，第二个参数是网站域名。执行完毕以后，蜘蛛文件夹中多了一个quotes.py，它就是刚刚建立的蜘蛛，内容以下所示：

import scrapy 

class  QuotesSpider （scrapy.Spider）：
     name = “quotes”
     allowed_domains = [ “quotes.toscrape.com” ] 
    start_urls = [ 'http://quotes.toscrape.com/' ] 

    def  parse （self，response）：
        经过复制代码

这里有三个属性 -

name

，

allowed_domains

和

start_urls

，还有一个方法

parse

。

namecss

，它是每一个项目惟一的名字，用来区分不一样的蜘蛛。
allowed_domainshtml

，它是容许爬取的域名，若是初始或后续的请求连接不是这个域名下的，则请求连接会被过滤掉。
start_urlsgit

，它包含了蜘蛛在启动时爬取的URL列表，初始请求是由它来定义的。
parsegithub

，它是蜘蛛的一个方法。默认状况下，调用被时

start_urls

里面的连接构成的请求完成下载执行后，返回的响应就会做为惟一的参数传递给这个函数

。该方法负责解析返回的响应，提取数据或者进一步生成要处理的请求。

五，建立项目

项目是保存爬取数据的容器，它的使用方法和字典相似。不过，相比字典，项目多了额外的保护机制，能够避免拼写错误或者定义字段错误。

建立项目继承须要

scrapy.Item

类，定义而且类型为

scrapy.Field

的字段。观察目标网站，咱们能够获取到到内容有

text

，

author

，

tags

。

定义项，此时将items.py修改以下：

import scrapy 

class  QuoteItem （scrapy.Item）：

     text = scrapy.Field（）
    author = scrapy.Field（）
    tags = scrapy.Field（）复制代码

这里定义了三个字段，接下来爬取时咱们会使用到这个项目。

六，解析响应

上文中咱们看到，

parse()

方法的参数

resposne

的英文

start_urls

里面的连接爬取后的查询查询结果。在因此

parse

方法中，能够咱们直接对

response

变量全部游戏的内容进行解析，好比浏览请求结果的网页源代码，或者进一步分析源代码内容，或者找出结果中的连接而获得下一个请求

。

咱们能够看到网页中既有咱们想要的结果，又有下一页的连接，这两部份内容咱们都要进行处理。

首先看看网页结构，以下图所示。页每一都有多个

class

为

quote

的区块，每一个区块内都包含

text

，，

author

。

tags

那么咱们先找出全部的

quote

，提取而后每个

quote

中的内容。

。提取的方式能够是CSS选择器或XPath的选择器在这里咱们使用CSS选择器进行选择，

parse()

方法的改写以下所示：

高清 解析（个体经营，响应）：
     报价= response.css（ '.quote' ）
    的报价在报价：
        文本= quote.css（ ':: .text区段文本'）.extract_first（）
        做者= quote.css（ ”。 author'text '）.extract_first（）
        tags = quote.css（ '.tags .tag :: text'）.extract（）复制代码

这里首先利用选择器选取全部的报价，其并将赋值为

quotes

变量，利用而后

for

循环对每一个

quote

遍历，每一个解析

quote

的内容。

对

text

来讲，到观察它的

class

为

text

，因此用能够

.text

选择器来选取，这个结果其实是整个带有标签的节点

，要获取它的正文内容，加能够

::text

来电子杂志。这时的结果是长度为1的列表，还需因此要用

extract_first()

方法来第电子杂志一个元素。对于而

tags

来讲，因为咱们要获取全部的标签，因此用

extract()

方法电子杂志整个列表便可。

第以一个

quote

的查询查询结果为例，各个选择方法及结果的说明以下内容

。

源码以下：

< div  class = “quote”  itemscope = “”  itemtype = “http://schema.org/CreativeWork” > 
        < span  class = “text”  itemprop = “text” > “咱们创造它的世界是一个过程，咱们的想法。“ </ span > 
        < span > by < small  class = ”author“  itemprop = ”author“ >阿尔伯特爱因斯坦<
        一个 HREF = “/做者/阿尔伯特-爱因斯坦” >（约） </ 一 > 
        </ 跨度 > 
        < DIV  类 = “标签” >
             标签：
             < 元 类 = “关键词”  itemprop = “关键词”  内容 = “变化，深的思想，思惟，世界” >  
            < 一 类 = “标签”  HREF = “/标签/变动/页/ 1 /” >变动 </ 一 > 
            <一个 class =“标记”  HREF = “/标记/深想法/页面/ 1 /” >深思想 </ 一 > 
            < 一 类 = “标签”  HREF = “/标签/思惟/页面/ 1 /” >思 </ 一 > 
            < 一 类 = “标签”  HREF = “/标签/世界/页面/ 1 /” >世界 </ 一 > 
        </ DIV > 
    </ DIV >复制代码

不一样选择器的返回结果以下内容。

1。 quote.css('.text')

[<Selector xpath =“descendant-or-self :: * [@ class and contains（concat（''，normalize-space（@class），''），'text'）]”data ='<span class = “text”itemprop =“text”>“The'>]复制代码

2。 quote.css('.text::text')

[<Selector xpath =“descendant-or-self :: * [@ class and contains（concat（''，normalize-space（@class），''），'text'）] / text（）”data =' “咱们创造它的世界是一个公关>]复制代码

3。 quote.css('.text').extract()

['span class =“text”itemprop =“text”>“咱们创造它的世界是咱们思考的过程。不改变咱们的想法就没法改变。“</ span>']复制代码

4。 quote.css('.text::text').extract()

[''咱们创造的世界是咱们思考的过程。不改变咱们的想法就没法改变。“']复制代码

5。 quote.css('.text::text').extract_first()

“咱们创造它的世界是咱们思考的过程。若是不改变咱们的想法，它就不能改变。“复制代码

因此，对于

text

，获取结果的第一个元素便可，使用因此

extract_first()

方法，对于

tags

，要获取全部结果组成的列表，使用因此

extract()

方法。

七，使用项目

上文定义了项目，接下来就要使用它了.Item能够理解为一个字典，不过在声明的时候须要实例化。而后依次用刚才解析的结果赋值项目的每个字段，最后将产品返回便可。

QuotesSpider数据库

的改写以下所示：

进口 scrapy 
从 tutorial.items 导入 QuoteItem 

类 QuotesSpider （scrapy.Spider） ：
     名称= “引号”
     allowed_domains = [ “quotes.toscrape.com” ] 
    start_urls = [ 'http://quotes.toscrape.com/' ] 

    DEF  解析（个体，响应）：
         报价= response.css（'.quote' ）
        用于引用在引号：
            项= QuoteItem（）
            项[ '文本' ] = quote.css（':: .text区段文本'）。extract_first（） 
            项目['author' ] = quote.css（'.author :: text'）.extract_first（）
            item [ 'tags' ] = quote.css（'.tags .tag :: text'）.extract（）
            yield item复制代码

如此一来，首页的全部内容被解析出来，并被赋值成了一个个

QuoteItem

。

八，后续请求

上面的操做实现了从初始页面抓取内容。那么，下一页的内容该如何抓取？这就须要咱们从当前页面中找到信息来生成下一个请求，而后在下一个请求的页面里找到信息再构造再下一个请求。这样循环往复迭代，从而实现整站的爬取。

将刚才的页面拉到最底部，以下图所示。

这里有一个接着按钮查看它的源代码，能够发现它的连接是/页/ 2 /，全连接就是：HTTP：//quotes.toscrape.com/page/2，经过这个连接咱们就能够构造下一个请求。

构造请求时须要用到scrapy.Request这里咱们传递两个参数-

url

和

callback

，这两个参数的说明以下。

urljson

：它是请求连接。
callbackbash

：。它是回调函数当指定了该回调函数的请求完成以后

，获取到响应，引擎会将该响应做为参数传递给这个回调函数回调函数进行解析或生成下一个请求

，函数回调文如上的

parse()

所示。

因为

parse()

就是解析

text

，

author

，

tags

的方法，而下一页的结构和刚才已经解析的页面结构是同样的

，因此能够咱们再次使用

parse()

方法来作页面解析。

接下来咱们要作的就是利用选择器获得下一页连接并生成请求

，在

parse()

方法后追加以下的代码：

next = response.css（'.pager .next a :: attr（href）'）.extract_first（）
url = response.urljoin（next）
yield scrapy.Request（url = url，callback = self.parse）复制代码

第一句代码首先经过CSS选择器获取下一个页面的连接，即要获取一个连接超中的

href

属性。用到这里了

::attr(href)

操做。再而后调用

extract_first()

方法电子杂志内容。

句第二代码调用了

urljoin()

方法，

urljoin()

方法能够将相对URL构形成一个绝对的URL例如，获取到的下一页地址/是/第2页。

urljoin()

方法处理后获得的结果就是：HTTP：//quotes.toscrape .COM /页/ 2 /。

句第三代码经过

url

状语从句：

callback

变量构造了一个新的请求，函数回调

callback

依然使用

parse()

方法。这个请求完成后，会响应从新通过

parse

方法处理，获得第二页的解析结果，而后生成第二页的下一页，也就是第三页的请求。这样爬虫就进入了一个循环，直到最后一页。

经过几行代码，咱们就轻松实现了一个抓取循环，将每一个页面的结果抓取下来了。

如今，以后改写整个的

Spider

类以下所示：

进口 scrapy 
从 tutorial.items 导入 QuoteItem 

类 QuotesSpider （scrapy.Spider） ：
     名称= “引号”
     allowed_domains = [ “quotes.toscrape.com” ] 
    start_urls = [ 'http://quotes.toscrape.com/' ] 

    DEF  解析（个体，响应）：
         报价= response.css（'.quote' ）
        用于引用在引号：
            项= QuoteItem（）
            项[ '文本' ] = quote.css（':: .text区段文本'）。extract_first（） 
            项目['author' ] = quote.css（'.author :: text'）.extract_first（）
            item [ 'tags' ] = quote.css（'.tags .tag :: text'）.extract（）
            yield item 

        next = response.css（'.pager .next a :: attr（“href”）'）.extract_first（）
        url = response.urljoin（next）
        yield scrapy.Request（url = url，callback = self.parse）复制代码

九，运行

接下来，进入目录，运行以下命令：

scrapy抓取报价复制代码

就能够看到Scrapy的运行结果了。

2017-02-19 13:37:20 [scrapy.utils.log]信息：Scrapy 1.3.0开始（bot：教程）
2017-02-19 13:37:20 [scrapy.utils.log]信息：重写设置：{'NEWSPIDER_MODULE'：'tutorial.spiders'，'SPIDER_MODULES'：['tutorial.spiders']，'ROBOTSTXT_OBEY'：True ，'BOT_NAME'：'教程'}
2017-02-19 13:37:20 [scrapy.middleware]信息：启用扩展：
[ 'scrapy.extensions.logstats.LogStats'，
 'scrapy.extensions.telnet.TelnetConsole'，
 'scrapy.extensions.corestats.CoreStats']
2017-02-19 13:37:20 [scrapy.middleware]信息：启用下载中间件：
[ 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware'，
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware'，
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware'，
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware'，
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware'，
 'scrapy.downloadermiddlewares.retry.RetryMiddleware'，
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware'，
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware'，
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware'，
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware'，
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-02-19 13:37:20 [scrapy.middleware]信息：启用蜘蛛中间件：
[ 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware'，
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware'，
 'scrapy.spidermiddlewares.referer.RefererMiddleware'，
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware'，
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-02-19 13:37:20 [scrapy.middleware]信息：启用项目管道：
[]
2017-02-19 13:37:20 [scrapy.core.engine]信息：蜘蛛打开
2017-02-19 13:37:20 [scrapy.extensions.logstats]信息：爬行0页（0页/分钟），刮0项（0项/分钟）
2017-02-19 13:37:20 [scrapy.extensions.telnet] DEBUG：Telnet控制台监听127.0.0.1:6023
2017-02-19 13:37:21 [scrapy.core.engine] DEBUG：Crawled（404）<GET http://quotes.toscrape.com/robots.txt>（referer：无）
2017-02-19 13:37:21 [scrapy.core.engine] DEBUG：Crawled（200）<GET http://quotes.toscrape.com/>（referer：无）
2017-02-19 13:37:21 [scrapy.core.scraper]调试：从<200 http://quotes.toscrape.com/刮掉>
{'做者'：爱因斯坦爱因斯坦'， '标签'：[u'change'，u'deep-thoughts'，u'thinking'，u'world']， '文本'：u'\ u201c咱们创造它的世界是咱们思考的过程。不改变咱们的想法就不能改变。\ u201d'} 2017-02-19 13:37:21 [scrapy.core.scraper]调试：从<200 http://quotes.toscrape.com/刮掉> {'做者'：u'JK罗琳'， 'tags'：[u'abilities'，u'choices']， '文本'：你是咱们的选择，哈利，这代表咱们真正的存在，远远超过咱们的能力。\ u201d'}
...
2017-02-19 13:37:27 [scrapy.core.engine]信息：关闭蜘蛛（完成）
2017-02-19 13:37:27 [scrapy.statscollectors]信息：倾销Scrapy统计信息：
{'downloader / request_bytes'：2859，
 'downloader / request_count'：11，
 'downloader / request_method_count / GET'：11，
 'downloader / response_bytes'：24871，
 'downloader / response_count'：11，
 'downloader / response_status_count / 200'：10，
 'downloader / response_status_count / 404'：1，
 'dupefilter / filtered'：1，
 'finish_reason'：'完成'，
 'finish_time'：datetime.datetime（2017，2，19，5，37，27，227438），
 'item_scraped_count'：100，
 'log_count / DEBUG'：113，
 'log_count / INFO'：7，
 'request_depth_max'：10，
 'response_received_count'：11，
 '调度程序/出队'：10，
 'scheduler / dequeued / memory'：10，
 '调度程序/入队'：10，
 'scheduler / enqueued / memory'：10，
 'start_time'：datetime.datetime（2017，2，19，5，37，20，321557）}
2017-02-19 13:37:27 [scrapy.core.engine]信息：蜘蛛关闭（完成）复制代码

这里只是部分运行结果，中间一些抓取结果已省略。

首先，Scrapy输出了当前的版本号以及正在启动的项目名称。接着输出了当前settings.py中一些重写后的配置。而后输出了当前所应用的中间件和Pipelines.Middlewares默认是启用的，能够在settings.py中修改.Pipelines默认是空，一样也能够在settings.py中配置。后面会对它们进行讲解。

接下来就是输出各个页面的抓取结果了，能够看到爬虫一边解析，一边翻页，直至将全部内容抓取完毕，而后终止。

最后，Scrapy输出了整个抓取过程的统计信息，如请求的字节数，请求次数，响应次数，完成缘由等。

整个Scrapy程序成功运行。咱们经过很是简单的代码就完成了一个网站内容的爬取，这样相比以前一点点写程序简洁不少。

十，保存到文件

运行完Scrapy后，咱们只在控制台看到了输出结果。若是想保存结果该怎么办呢？

要完成这个任务其实不须要任何额外的代码，Scrapy提供的Feed Export能够轻松将抓取结果输出。例如，咱们想将上面的结果保存成JSON文件，能够执行以下命令：

scrapy抓取引号-o quotes.json复制代码

命令运行后，项目内多了一个quotes.json文件，文件包含了刚才抓取的全部内容，内容是JSON格式。

另外咱们还能够每个项目输出一行JSON，输出后缀为JL，为jsonline的缩写，命令以下所示：

scrapy抓取引号-o quotes.jl复制代码

或

scrapy抓取引号-o引用.jsonlines复制代码

输出格式还支持不少种，例如CSV，XML，咸菜，元帅等，还支持FTP，S3等远程输出，另外还能够经过自定义ItemExporter来实现其余的输出。

例如，下面命令对应的输出分别为CSV，XML，咸菜，元帅格式以及FTP远程输出：

scrapy抓取引号-o quotes.csv
scrapy抓取引号-o quotes.xml
scrapy抓取引号-o quotes.pickle
scrapy抓取引号-o引用.marshal
scrapy抓取引号-o ftp：// user：pass@ftp.example.com/path/to/quotes.csv复制代码

其中，FTP输出须要正确配置用户名，密码，地址，输出路径，不然会报错。

经过Scrapy提供的Feed Exports，咱们能够轻松地输出抓取结果到文件。对于一些小型项目来讲，这应该足够了。不过若是想要更复杂的输出，如输出到数据库等，咱们可使用Item Pileline来完成。

十一，使用Item Pipeline

若是想进行更复杂的操做，如将结果保存到MongoDB数据库，或者筛选某些有用的Item，则咱们能够定义Item Pileline来实现。

Item Pipeline为项目管道。当Item生成后，它会自动被送到Item Pipeline进行处理，咱们经常使用Item Pipeline来作以下操做。

清理HTML数据。
验证爬取数据，检查爬取字段。
查重并丢弃重复内容。
将爬取结果保存到数据库。

要实现Item Pipeline很简单，只须要定义一个类并实现

process_item()

方法便可。启用Item Pipeline后，Item Pipeline会自动调用这个方法。

process_item()

方法必须返回包含数据的字典或Item对象，或者抛出DropItem异常。

process_item()微信

方法有两个参数。一个参数是

item

，每次蜘蛛生成的项目都会做为参数传递过来。另外一个参数是

spider

，就是蜘蛛的实例。

接下来，咱们实现一个Item Pipeline，筛掉

text

长度大于50的Item，并将结果保存到MongoDB。

修改项目里的pipelines.py文件，以前用命令行自动生成的文件内容能够删掉

，一个增长

TextPipeline

类，内容以下所示：

from scrapy.exceptions import DropItem 

class  TextPipeline （object）：
    def  __init__ （self）：
         self.limit = 50 

    def  process_item （self，item，spider）：
        if item [ 'text' ]：
            if len（item [ 'text' ]] ）> self.limit：
                item [ 'text' ] = item [ 'text' ] [ 0：self.limit] .rstrip（）+ '...' 
            return item 
        else：
            return DropItem（'Missing Text'））复制代码

这段代码在构造方法里定义了限制长度为

50，了实现

process_item()

方法，参数其的英文

item

状语从句：

spide

- [R首先该方法判断。

item

的

text

属性是否存在，若是不存在，抛出则

DropItem

异常;若是存在，再判断长度是否大于50，若是大于，那就截断而后拼接省略号，再将

item

报道查看便可。

接下来，将咱们处理后的

item

存入MongoDB中，定义另一个管道一样在pipelines.py中，咱们实现另外一个类。

MongoPipeline

，内容以下所示：

导入 pymongo 

类 MongoPipeline （object）：
    def  __init__ （self，mongo_uri，mongo_db）：
         self.mongo_uri = mongo_uri 
        self.mongo_db = mongo_db 

    @classmethod 
    def  from_crawler （cls，crawler）：
        return cls（
            mongo_uri = crawler.settings.get（' MONGO_URI'），
            mongo_db = crawler.settings.get（'MONGO_DB'）
        ）

    def  open_spider （self，spider）：
         self.client = pymongo.MongoClient（self.mongo_uri）
        self.db = self.client [self.mongo_db] 

    def  process_item （self，item，spider）：
         name = item .__ class __.__ name__ 
        self.db [name] .insert（dict（item））
        return item 

    def  close_spider （self，蜘蛛）：
         self.client.close（）复制代码

MongoPipelinecookie

类实现了API定义的另外几个方法。

from_crawler网络

。它是一个类方法，用

@classmethod

标识，是一种依赖注入的方式。它的参数就是

crawler

，经过

crawler

咱们能够拿到全局配置的每一个配置信息。在全局配置settings.py中，能够咱们定义

MONGO_URI

状语从句：

MONGO_DB

来指定MongoDB的链接须要的地址和数据库名称，拿到配置信息以后返回类对象便可。因此这个方法的定义主要是用来获取 settings.py中的配置的

。
open_spider

。当蜘蛛开启时，这个方法被调用。上文程序中主要进行了一些初始化操做。
close_spider

。当蜘蛛关闭时，这个方法会调用。上文程序中将数据库链接关闭。

的最主要

process_item()

方法则执行了数据插入操做。

好定义

TextPipeline

状语从句：

MongoPipeline

这两个类后，咱们须要在settings.py中使用它们.MongoDB的链接信息还须要定义。

咱们在settings.py中加入以下内容：

ITEM_PIPELINES = { 
   'tutorial.pipelines.TextPipeline'：300，
   'tutorial.pipelines.MongoPipeline'：400，
} 
MONGO_URI = 'localhost'MONGO_DB
 = 'tutorial'复制代码

赋值

ITEM_PIPELINES

字典搜索，键名是管道的类名称，键值是调用优先级，是一个数字，数字越小则对应的管道越先被调用。

再从新执行爬取，命令以下所示：

scrapy抓取报价复制代码

爬取结束后，MongoDB的中建立了一个教程的数据库，QuoteItem的表，以下图所示。

的长

text

已经被处理并追加了省略号，的短

text

保持不变，

author

状语从句：

tags

也。都相应保存。

十二，源代码

本节代码地址为：HTTPS：//github.com/Python3WebSpider/ScrapyTutorial。

本资源首发于崔庆才的我的博客静觅： Python3网络爬虫开发实战教程 | 静觅

如想了解更多爬虫资讯，请关注个人我的微信公众号：进击的Coder

weixin.qq.com/r/5zsjOyvEZ… (二维码自动识别)