Scrapy爬虫框架简单解析

时间 2019-11-12

标签 scrapy 爬虫框架简单解析栏目 Python 繁體版

原文原文链接

scrapy框架解析

Scrapy框架大体包括如下几个组件：Scrapy Engine、Spiders、Scheduler、Item Pipeline、Downloader；数据库

这是框架的核心，负责控制数据流在整个系统的各个组件间的流动过程，而且在特定动做发生时触发相应事件。框架

调度程序从Scrapy引擎接受其传递过来的Request对象，而且将该对象加入到队列中，下次Scrapy引擎发出请求时再将对象传递给引擎。scrapy

下载器负责对目标页面发出请求而且获取到页面反馈的数据，以后传递给Scrapy引擎，最终传递给爬虫进行数据提取。ide

爬虫是Scrapy的用户自行编写的程序用来提取数据，针对下载器返沪的Response进行分析，或者指定其它须要跟进的URL和处理方法。url

数据管道负责处理被爬虫提取出来的Item数据，能够定义多个数据管道来作多种不一样的数据操做，好比数据清理、验证、写入数据库；Item能够在不一样的数据管道中进行传递，能够设置每一个数据管道的优先级，Item会按照优先级依次通过全部的数据管道。spa

它的流程图以下：code

步骤以下：对象

启动爬虫程序时，引擎开始爬取程序中给定的爬虫，而后获取到须要抓取的URL网址（能够经过爬虫类的属性Start_urls来指定或者重载爬虫类的start_request方法指定），而后将URL网址的Request传递给调度器；
下载器从调度器那获取到相应的请求后发出请求，得到页面返回的数据，将返回的数据以Response的形式传递给爬虫；
爬虫针对Response中的数据进行分析，提取出相应的数据之后，将数据填充到Item中，而且传递给数据管道；
数据管道根据优先级顺序对Item依次进行处理，通过验证等后将Item中的数据保存到数据库中；
继续从调度器中获取到下一个URL请求传递给下载器，重复第二步后的步骤；
调度器中没有请求时，爬虫引擎则中止程序；