scrapy 简介python
scrapy 是使用python语言开发的网络爬虫框架。 具备下面几个特色:网络
设计简单,用户只须要简单定义数据提取规则,让scrapy完成抓取的工做,便可获取数据。 提供丰富的插件扩展机制 开源,100%用python编写(基于twisted框架) 官方文档比较详细框架
scrapy 主要组件scrapy
- scrapy engine, 控制整个爬虫的运行,请求调度,spider调用,下载调用,信号事件触发
- spider(蜘蛛), 用来解析页面的类,解析后建立新的请求,或者建立数据结果集合
- scheduler(调度器), 负责管理请求(来自spider),存入队列,执行时返回给 scrapy引擎
- Downloader(下载器),抓取页面并返回结果给spider
- Item pipeline(item管道), 处理网页中抽取的数据结果,进行清洗,校验,存储等操做
- Downloader middlewares(下载器中间件),下载器与spider之间的勾子,能够对请求和响应的数据进行操做
- extensions(扩展),在scrapy启动时初始化,提供加强的辅助功能
上面是我主要用到的一些组件,还有 spider middlerwares等没包含在内ide
scrapy 运行机制url
- 引擎调用蜘蛛获取第一个要抓取的url, 存入调度器
- 引擎从调度器获取请求url(上面放入的url),
- 引擎传递请求 -> 下载中间件 -> 下载器
- 下载器下载页面,响应结果 -> 下载中间件 -> 引擎
- 引擎把响应结果交给蜘蛛处理
- 蜘蛛处理响应,建立结果Item和新的请求
- 结果item交给 item管道处理
- 新的请求存入调度器,重复上面的操做