【Scrapy】scrapy 开发（1）-- 介绍

时间 2019-11-13

标签 Scrapy scrapy 开发介绍栏目 Python 繁體版

原文原文链接

scrapy 简介python

scrapy 是使用python语言开发的网络爬虫框架。具备下面几个特色：网络

设计简单，用户只须要简单定义数据提取规则，让scrapy完成抓取的工做，便可获取数据。提供丰富的插件扩展机制开源，100%用python编写（基于twisted框架）官方文档比较详细框架

scrapy 主要组件scrapy

scrapy engine，控制整个爬虫的运行，请求调度，spider调用，下载调用，信号事件触发
spider（蜘蛛）, 用来解析页面的类，解析后建立新的请求，或者建立数据结果集合
scheduler（调度器），负责管理请求（来自spider），存入队列，执行时返回给 scrapy引擎
Downloader（下载器），抓取页面并返回结果给spider
Item pipeline（item管道），处理网页中抽取的数据结果，进行清洗，校验，存储等操做
Downloader middlewares（下载器中间件），下载器与spider之间的勾子，能够对请求和响应的数据进行操做
extensions（扩展），在scrapy启动时初始化，提供加强的辅助功能

上面是我主要用到的一些组件，还有 spider middlerwares等没包含在内ide

scrapy 运行机制url

引擎调用蜘蛛获取第一个要抓取的url，存入调度器
引擎从调度器获取请求url（上面放入的url），
引擎传递请求 -> 下载中间件 -> 下载器
下载器下载页面，响应结果 -> 下载中间件 -> 引擎
引擎把响应结果交给蜘蛛处理
蜘蛛处理响应，建立结果Item和新的请求
结果item交给 item管道处理
新的请求存入调度器，重复上面的操做

相关文章

1. Scrapy学习笔记(1) --Scrapy的介绍
2. [scrapy] pycharm开发scrapy - scrapy项目目录介绍
3. scrapy--介绍
4. Scrapy介绍
5. scrapy :介绍
6. scrapy-redis 介绍
7. scrapy的介绍
8. Scrapy框架介绍
9. scrapy框架介绍
10. Scrapy 框架介绍
更多相关文章...
• 网站主机介绍 - 网站主机教程
• MySQL触发器简介 - MySQL教程
• PHP开发工具
• Java Agent入门实战（一）-Instrumentation介绍与使用

相关标签/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

1. Scrapy学习笔记(1) --Scrapy的介绍
2. [scrapy] pycharm开发scrapy - scrapy项目目录介绍
3. scrapy--介绍
4. Scrapy介绍
5. scrapy :介绍
6. scrapy-redis 介绍
7. scrapy的介绍
8. Scrapy框架介绍
9. scrapy框架介绍
10. Scrapy 框架介绍

>>更多相关文章<<