Scrapy爬虫框架结构以及和Requests库的比较

时间 2019-11-11

标签 scrapy 爬虫框架结构以及 requests 比较栏目 Python 繁體版

原文原文链接

*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合python

*爬虫框架是一个半成品，可以帮助用户实现专业网络爬虫数据库

"5+2"结构网络

Spiders（用户提供Url、以及解析内容）、Item pipelines（对提取的信息进行处理）模块须要用户编写（配置）并发

其余模块：Engine、Scheduler、Downloader模块已有实现，不须要用户进行修改python爬虫

Engine：控制全部模块之间的数据流、根据条件触发事件，不须要用户修改框架

Downloader：根据请求下载网页，不须要用户修改ide

Scheduler：对全部爬取请求进行调度管理、不须要用户进行修改性能

Downloader Middleware（中间件）网站

目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制spa

功能：修改、丢弃、新增请求或响应

用户能够编写配置代码

Spider：解析Downloader返回的响应（Response）、产生爬取项（scraped item）、产生额外的爬取请求（Request）

Item pipelines：以流水线方式处理Spider产生的爬取项、由一组操做顺序组成，相似流水线，每一个操做是一个Item Pipeline类型。

可能的操做包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。

Spider Middleware（中间件）

目的：对请求和爬取项的再处理

功能：修改、丢弃、新增请求或爬取项

用户能够编写配置代码

很是小的需求，用requests库

不过小的需求，Scrapy框架（持续周期性不间断爬取）

定制程度很高的需求（不考虑规模），自搭框架，requests>Scrapy

*二者均可以进行页面请求和爬取，python爬虫的两个重要技术路线。

*二者可用性都好，文档丰富，入门简单。

*二者都没有处理js、提交表单、应对验证码等功能（可扩展）。