做者:xiaoyuhtml
微信公众号:Python数据科学python
知乎:zhuanlan.zhihu.com/pypcfxredis
在爬虫的路上,学习scrapy
是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy
,那么很好,咱们一块儿学习。开始接触scrapy
的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学起。从本篇起,博主将开启scrapy
学习的系列,分享如何快速入门scrapy并熟练使用它。数据库
本篇做为第一篇,主要介绍和了解scrapy
,在结尾会向你们推荐一本关于学习scrapy
的书,以及获取的方式。编程
若是你对爬虫的基础知识有了必定了解的话,那么是时候该了解一下爬虫框架了。那么为何要使用爬虫框架?微信
学习框架的根本是学习一种编程思想,而不该该仅仅局限因而如何使用它。从了解到掌握一种框架,实际上是对一种思想理解的过程。多线程
框架也给咱们的开发带来了极大的方便。许多条条框框都已是写好了的,并不须要咱们重复造轮子,咱们只须要根据本身的需求定制本身要实现的功能就行了,大大减小了工做量。架构
参考并学习优秀的框架代码,提高编程代码能力。框架
博主当时是根据这几点来进行爬虫框架的学习的,可是切记核心目标是掌握一种框架思想,一种框架的能力,掌握了这种思想你才能更好的去使用它,甚至扩展它。dom
比较流行的爬虫的框架有scrapy
和pyspider
,可是被你们所钟爱的我想非scrapy
莫属了。scrapy
是一个开源的高级爬虫框架,咱们能够称它为**"scrapy语言"**。它使用python
编写,用于爬取网页,提取结构性数据,并可将抓取得结构性数据较好的应用于数据分析和数据挖掘。scrapy
有如下的一些特色:
scrapy
基于事件的机制,利用twisted
的设计实现了非阻塞的异步操做。这相比于传统的阻塞式请求,极大的提升了CPU的使用率,以及爬取效率。scrapy + redis
、爬虫可视化等插件。scrapy
封装了xpath
等解析器,提供了更方便更高级的selector
构造器,可有效的处理破损的HTML
代码和编码。有的朋友问了,为何要使用scrapy,不使用不行吗?用resquests + beautifulsoup
组合难道不能完成吗?
不用纠结,根据本身方便来。resquests + beautifulsoup
固然能够了,requests + 任何解析器都行,都是很是好的组合。这样用的优势是咱们能够灵活的写咱们本身的代码,没必要拘泥于固定模式。对于使用固定的框架有时候不必定用起来方便,好比scrapy对于反反爬的处理并无很完善,好多时候也要本身来解决。
可是对于一些中小型的爬虫任务来说,scrapy
确实是很是好的选择,它避免了咱们来写一些重复的代码,而且有着出色的性能。咱们本身写代码的时候,好比为了提升爬取效率,每次都本身码多线程或异步等代码,大大浪费了开发时间。这时候使用已经写好的框架是再好不过的选择了,咱们只要简单的写写解析规则和pipeline
就行了。那么具体哪些是须要咱们作的呢?看看下面这个图就明白了。
所以,对于该用哪一个,根据我的需求和喜爱决定。可是至于学习的前后顺序,博主建议先学学resquests + beautifulsoup
,而后再接触Scrapy
效果可能会更好些,仅供参考。
在学习Scrapy
以前,咱们须要了解Scrapy
的架构,明白这个架构对学习scrapy相当重要。
下面的描述引自官方doc文档(在此引用),讲的很清楚明白,对照这个图看就能明白。
Scrapy Engine 引擎负责控制数据流在系统中全部组件中流动,并在相应动做发生时触发事件。 详细内容查看下面的数据流(Data Flow)
部分。
调度器(Scheduler) 调度器从引擎接受request
并将他们入队,以便以后引擎请求他们时提供给引擎。
下载器(Downloader) 下载器负责获取页面数据并提供给引擎,然后提供给spider
。
Spiders Spider
是Scrapy
用户编写用于分析response
并提取item
(即获取到的item)或额外跟进的URL的类。 每一个spider
负责处理一个特定(或一些)网站。
Item Pipeline Item Pipeline
负责处理被spider
提取出来的item
。典型的处理有清理、 验证及持久化(例如存取到数据库中)。
下载器中间件(Downloader middlewares) 下载器中间件是在引擎及下载器之间的特定钩子(specific hook)
,处理Downloader
传递给引擎的response
。 其提供了一个简便的机制,经过插入自定义代码来扩展Scrapy
功能。
Spider中间件(Spider middlewares) Spider中间件
是在引擎及Spider之间的特定钩子(specific hook)
,处理spider
的输入(response)和输出(items及requests)。 其提供了一个简便的机制,经过插入自定义代码来扩展Scrapy功能。
(open a domain)
,找处处理该网站的Spider
并向该spider
请求第一个要爬取的URL(s)。Spider
中获取到第一个要爬取的URL并在调度器(Scheduler)
以Request
调度。(request)
方向)转发给下载器(Downloader)
。Response
,并将其经过下载中间件(返回(response)
方向)发送给引擎。Response
并经过Spider中间件
(输入方向)发送给Spider处理。Spider
处理Response
并返回爬取到的Item
及(跟进的)新的Request给引擎。Item Pipeline
,将(Spider返回的)Request给调度器。request
,引擎关闭该网站。下面博主列出两个学习scrapy
的参考资料。
参考: https://doc.scrapy.org/en/latest/index.html https://www.cnblogs.com/x-pyue/p/7795315.html
若是想学习Python大数据,能够关注微信公众号Python数据科学
,博主会一直更新精彩内容,并分享更多的实战讲解,带你走进数据的世界。