Python开源爬虫框架:Scrapy架构分析

    所谓网络爬虫,就是一个在网上处处或定向抓取数据的程序,固然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过因为一个网站的网页不少,而咱们又不可能事先知道全部网页的URL地址,因此,如何保证咱们抓取到了网站的全部HTML页面就是一个有待考究的问题了。     html

    通常的方法是,定义一个入口页面,而后通常一个页面会有其余页面的URL,因而从当前页面获取到这些URL加入到爬虫的抓取队列中,而后进入到新新页面后再递归的进行上述的操做,其实说来就跟深度遍历或广度遍历同样。 
上面介绍的只是爬虫的一些概念而非搜索引擎,实际上搜索引擎的话其系统是至关复杂的,爬虫只是搜索引擎的一个子系统而已。
python

    Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途普遍,能够用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人均可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。web

1、概述数据库

    Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,而且很是方便,而且官网上说已经在实际生产中在使用了,不过如今尚未 Release 版本,能够直接使用他们的 Mercurial 仓库里抓取源码进行安装。 
Scrapy 使用 Twisted 这个异步网络库来处理网络通信,架构清晰,而且包含了各类中间件接口,能够灵活的完成各类需求。 
Scrapy总体架构以下图所示,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每一个组件的做用及数据的处理过程。
编程

     

绿线是数据流向,首先从初始 URL 开始,Scheduler 会将其交给 Downloader 进行下载,下载以后会交给 Spider 进行分析,Spider 分析出来的结果有两种:一种是须要进一步抓取的连接,例如以前分析的“下一页”的连接,这些东西会被传回 Scheduler ;另外一种是须要保存的数据,它们则被送到 Item Pipeline 那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还能够安装各类中间件,进行必要的处理。网络

 

 

2、组件架构

一、Scrapy Engine(Scrapy引擎)框架

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容能够看下面的数据处理流程。异步

二、Scheduler(调度)scrapy

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

三、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

四、Spiders(蜘蛛)

蜘蛛是有Scrapy用户本身定义用来解析网页并抓取制定URL返回的内容的类,每一个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的:

      1. 首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是经过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。

      2. 在回调函数中,你能够解析网页响应并返回项目对象和请求对象或二者的迭代。这些请求也将包含一个回调,而后被Scrapy下载,而后有指定的回调处理。

      3. 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(可是你也可使用BeautifuSoup, lxml或其余任何你喜欢的程序),并生成解析的数据项。

      4. 最后,从蜘蛛返回的项目一般会进驻到项目管道。

    五、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并通过几个特定的次序处理数据。每一个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还须要肯定的是是否须要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道一般执行的过程有:

        a、清洗HTML数据

        b、验证解析到的数据(检查项目是否包含必要的字段)

        c、检查是不是重复数据(若是重复就删除)

        d、将解析到的数据存储到数据库中

六、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

七、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工做是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你能够插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

八、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件,主要工做是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

3、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:

    一、引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。

    二、引擎从蜘蛛那获取第一个须要爬取的URL,而后做为请求在调度中进行调度。

    三、引擎从调度那获取接下来进行爬取的页面。

    四、调度将下一个爬取的URL返回给引擎,引擎将他们经过下载中间件发送到下载器。

    五、当网页被下载器下载完成之后,响应内容经过下载中间件被发送到引擎。

    六、引擎收到下载器的响应并将它经过蜘蛛中间件发送到蜘蛛进行处理。

    七、蜘蛛处理响应并返回爬取到的项目,而后给引擎发送新的请求。

    八、引擎将抓取到的项目项目管道,并向调度发送请求。

    九、系统重复第二部后面的操做,直到调度中没有请求,而后断开引擎与域之间的联系。

4、驱动器

Scrapy是由 Twisted 写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。若是要得到更多关于异步编程和Twisted的信息,请参考下面两条连接。

相关文章
相关标签/搜索