Scrapy001-框架初窥

时间 2019-11-17

标签 scrapy001 scrapy 框架栏目 Python 繁體版

原文原文链接

Scrapy001-框架初窥

@(Spider)[POSTS]html

1.Scrapy简介

Scrapy是一个应用于抓取、提取、处理、存储等网站数据的框架（相似Django）。shell

应用：后端

数据挖掘
信息处理
存储历史数据
监测
自动化测试
。。。

还有不少，详细参考：http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html缓存

2.Scrapy架构

Scrapy使用了Twisted异步网络库来处理网络通信。结构以下：cookie

Scrapy的核心组件：网络

引擎（Scrapy Engine）
用来处理整个系统的数据流，触发事务（框架核心），负责控制和调度各个组件session
调度器（Scheduler）
用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回，如：要抓取的连接（URL）的优先队列，由它来决定下一个要抓取的URL是什么，并进行去重。架构
下载器（Downloader）
用于下载网页内容，并将网页内容返回给Spiders（本身编写的虫子）--下载器创建在Twisted模型上框架
爬虫（Spider）
干活的虫子，从特定的网页中提取本身须要的信息，即：实体Item，用户也能够提取下级连接，继续抓取页面内容。异步
项目管道（Pipline）
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体（Item）、验证明体的有效性、清除垃圾信息。当页面被爬虫解析后，解析后内容将会发送到项目管理通道，通过几个特定的次序处理。
下载器中间件（Downloader Middlewares）
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎和下载器之间的请求与响应。
爬虫中间件（Spider Middlewares）
介于Scrapy引擎和Spider之间的框架，处理爬虫的响应输入和请求输出。
调度中间件（Scheduler Middlewares）
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

从上面能够看出，Scrapy的耦合性很低，扩展性更灵活，自定义性好

3.Scrapy执行流程

以下图：

此图来自大神的文章

按照上图的序号，数据的执行流程以下：

引擎从自定义爬虫中获取初始化请求（种子URL--自定义爬虫文件中的start_urls）
引擎将该请求放入调度器中，同时引擎从调度器获取一个待下载的请求（两者异步执行）
调度器返回给引擎一个待下载请求
引擎将待下载请求发送给下载器，中间会通过一系列下载器中间件
该待下载请求通过下载器处理以后，会生成一个响应对象（response），返回给引擎，中间会再次通过一系列下载器中间件
引擎接收到下载器返回的响应对象（response）后，将其发送给自定义爬虫，执行自定义逻辑，中间会通过一系列爬虫中间件
响应对象（response）通过内部的选择器筛选并调用回调函数处理后，完成逻辑，生成结果对象或新的请求对象给引擎，再次通过一系列爬虫中间件
引擎将返回的结果对象交给结果处理器处理，将新的请求对象交给调度器
新的请求对象重复上述过程，直到没有新的请求处理

新的请求对象：多层URL的筛选中的下一层URL

==> 详细组件关系，待解读完源码后继续跟上。

4.支持特性

上面介绍的仅仅是冰上一角，Scrapy提供了不少强大的特性是爬虫更加高效，例如：

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
经过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S三、本地文件系统)的内置支持
提供了media pipeline，能够自动下载爬取到的数据中的图片(或者其余资源)。
高扩展性。您能够经过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:

cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
其余

针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫建立的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您能够监视及控制您的机器
内置 Telnet终端，经过在Scrapy进程中钩入Python终端，使您能够查看而且调试爬虫
Logging 为您在爬取过程当中捕捉错误提供了方便
支持 Sitemaps 爬取
具备缓存的DNS解析器

1. 初窥Ray框架
2. RPC框架技术初窥
3. 初窥nodejs（四） ——express框架
4. 初窥三层架构
5. APP界面框架初窥---标签导航
6. 初窥IndexedDB
7. Mongodb Mapreduce 初窥
8. 初窥Scrapy
9. vue初窥
10. 初窥Xterm.js
更多相关文章...
• Docker 架构 - Docker教程
• SSH框架（Struts2+Spring+Hibernate）搭建整合详细步骤 - Spring教程
• 适用于PHP初学者的学习线路和建议
• RxJava操作符（一）Creating Observables