Scrapy 是一个开源和协做的框架,其最初是为了页面抓取 (更确切来讲, 网络抓取 )所设计的,使用它能够以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分普遍,可用于如数据挖掘、监测和自动化测试等领域,也能够应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。html
Scrapy 是基于twisted框架开发而来,因此要使用 Scrapy 首先得安装 twisted 。twisted 是一个流行的事件驱动的python网络框架。所以 Scrapy 使用了一种非阻塞(又名异步)的代码来实现并发。Scrapy 的官网地址为:https://docs.scrapy.org/en/latest/topics/architecture.htmlpython
根据官网,咱们知道 Scrapy 总体架构大体由7部分组成:linux
windows安装:程序员
一、pip3 install wheel #安装后,便支持经过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs 3、pip3 install lxml 4、pip3 install pyopenssl 五、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/ 六、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 七、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl #以上步骤是由于scrapy是基于twisted实现的,因此要先安装twisted 八、pip3 install scrapy
linux安装:ajax
pip3 install scrapy
安装完scrapy后咱们最关心的就是如何建立一个新的项目,而后展开爬虫行动。这里就须要用到命令行工具,首先咱们来讲建立项目。shell
startproject #建立项目
命令行分为全局命令(Global commands)和项目命令(Project-only commands)。全局命令指在任何位置均可以调用,而项目命令只能在项目中使用。数据库
#1 查看帮助 scrapy -h scrapy <command> -h #2 有两种命令:其中Project-only必须切到项目文件夹下才能执行,而Global的命令则不须要 Global commands: startproject #建立项目 genspider #建立爬虫程序 settings #若是是在项目目录下,则获得的是该项目的配置 runspider #运行一个独立的python文件,没必要建立项目 shell #scrapy shell url地址 在交互式调试,如选择器规则正确与否 fetch #独立于程单纯地爬取一个页面,能够拿到请求头 view #下载完毕后直接弹出浏览器,以此能够分辨出哪些数据是ajax请求 version #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依赖库的版本 Project-only commands: crawl #运行爬虫,必须建立项目才行,确保配置文件中ROBOTSTXT_OBEY = False check #检测项目中有无语法错误 list #列出项目中所包含的爬虫名 edit #编辑器,通常不用 parse #scrapy parse url地址 --callback 回调函数 #以此能够验证咱们的回调函数是否正确 bench #scrapy bentch压力测试
刚才咱们用到的建立项目的命令是一条全局命令,一般咱们会在指定位置建立项目,因此咱们先cd 文件路径 切到指定位置后再执行“scrapy startproject 项目名”就能建立一个爬虫项目。windows
建立项目示例:浏览器
#cd 项目所在路径 scrapy startproject AMAZON#这里以爬取亚马逊举例 #这时候会有一出现AMAZON的文件夹和一个scrapy.cfg文件,scrapy.cfg里面写的是项目的部署信息,爬虫相关的配置信息在settings.py文件中 cd AMAZON#切到项目路径下 scrapy genspider amazon www.amazon.cn#建立一只叫amazon的蜘蛛,爬取的网页的域名为www.amazon.cn #这时候在AMAZON文件夹下的spiders文件夹下就会多一个amazon.py文件 #amazon.py中: # -*- coding: utf-8 -*- import scrapy #继承了scrapy.Spider类的自定义类 class AmazonSpider(scrapy.Spider): name = 'amazon'#爬虫名字,不可改 allowed_domains = ['www.amazon.cn']#域名 start_urls = ['http://www.amazon.cn/']#不设置url时默认爬这个网页 def parse(self, response): #解析操做 pass """ 爬虫是一项不违法但也容易违法的行为,有些公司会不想让你爬,因此有一个ROBOTSTXT_OBEY协议,规定了如该公司的网站不容许你爬的话会另外开一个
专门接口放入不重要的信息用于给你爬取。在settings,py中有一条ROBOTSTXT_OBEY的配置,默认为True就是遵循该协议,咱们处理爬取的数据的行为
不违法的状况下能够将其设置为False,以爬取全部数据 """
注意:Scrapy默认只能在CMD中执行爬虫程序,若想在Pycharm中运行需在settings.py文件同级的目录下新建entrypoint.py,里面写入网络
#在项目目录下新建:entrypoint.py from scrapy.cmdline import execute execute(['scrapy', 'crawl', 'amazon','--nolog'])#执行这条会打印默认的日志信息 # execute(['scrapy', 'crawl', 'amazon',])#执行这条为不打印日志信息
#一、执行全局命令:请确保不在某个项目的目录下,排除受该项目配置的影响 scrapy startproject MyProject cd MyProject scrapy genspider baidu www.baidu.com scrapy settings --get XXX #若是切换到项目目录下,看到的则是该项目的配置 scrapy runspider baidu.py scrapy shell https://www.baidu.com response response.status response.body view(response) scrapy view https://www.taobao.com #若是页面显示内容不全,不全的内容则是ajax请求实现的,以此快速定位问题 scrapy fetch --nolog --headers https://www.taobao.com scrapy version #scrapy的版本 scrapy version -v #依赖库的版本 #二、执行项目命令:切到项目目录下 scrapy crawl baidu scrapy check scrapy list scrapy parse http://quotes.toscrape.com/ --callback parse scrapy bench
import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
项目文件的结构以及各文件的做用以下图所示
spiders文件夹的内容是由程序员自定义的多个类组成,用于爬取一个或多个网址,具体包括如何执行爬取任务而且如何从页面中提取结构化的数据。换句话说,Spiders是你为了一个特定的网址或一组网址自定义爬取和解析页面行为的地方。
Spiders中的类封装了发起请求的方法和回调函数的方法,回调函数能够是多个但每个请求都必须一个绑定回调函数以处理抓取到的网页的内容。
默认生成的“def start_requests(self):” 只执行一次默认从start_urls列表中得到url地址来生成Request请求,默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发。
回调函数用于解析response并返回值,返回值可使4种,一般Scrapy用自带的Selectors解析内容,固然咱们也可使用Beutifulsoup,lxml或其余的。返回Item对象的话会经过项目管道(Item Pipeline)组件存到数据库或以文件的形式导出。
四种返回值:
Spiders给咱们提供了5个类
scrapy.spiders.Spider #scrapy.Spider等同于scrapy.spiders.Spider,使咱们用的最多的类 scrapy.spiders.CrawlSpider scrapy.spiders.XMLFeedSpider scrapy.spiders.CSVFeedSpider scrapy.spiders.SitemapSpider #可链式操做 from scrapy.spiders import Spider,CrawlSpider,XMLFeedSpider,CSVFeedSpider,SitemapSpider