分布式爬虫的部署之Scrapyd分布式部署

时间 2019-11-30

标签分布式爬虫部署 scrapyd 栏目系统架构繁體版

原文原文链接

分布式爬虫完成并能够成功运行了，可是有个环节很是烦琐，那就是代码部署。
html

咱们设想下面的几个场景。node

若是采用上传文件的方式部署代码，咱们首先将代码压缩，而后采用SFTP或FTP的方式将文件上传到服务器，以后再链接服务器将文件解压，每一个服务器都须要这样配置。python
若是采用Git同步的方式部署代码，咱们能够先把代码Push到某个Git仓库里，而后再远程链接各台主机执行Pull操做，同步代码，每一个服务器一样须要作一次操做。json

若是代码忽然有更新，那咱们必须更新每一个服务器，并且万一哪台主机的版本没控制好，这可能会影响总体的分布式爬取情况。api

因此咱们须要一个更方便的工具来部署Scrapy项目，若是能够省去一遍遍逐个登陆服务器部署的操做，那将会方便不少。浏览器

本节咱们就来看看提供分布式部署的工具Scrapyd。bash

1、了解Scrapyd

Scrapyd是一个运行Scrapy爬虫的服务程序，它提供一系列HTTP接口来帮助咱们部署、启动、中止、删除爬虫程序。Scrapyd支持版本管理，同时还能够管理多个爬虫任务，利用它咱们能够很是方便地完成Scrapy爬虫项目的部署任务调度。
服务器

2、准备工做

请确保本机或服务器已经正确安装好了Scrapyd。
微信

3、访问Scrapyd

安装并运行Scrapyd以后，咱们就能够访问服务器的6800端口，看到一个WebUI页面。例如个人服务器地址为120.27.34.25，那么我就能够在本地的浏览器中打开：http://120.27.34.25:6800，就能够看到Scrapyd的首页。这里能够替换成你的服务器地址，以下图所示成功访问到此页面，则Scrapyd配置就没有问题。网络

4、Scrapyd的功能

Scrapyd提供了一系列HTTP接口来实现各类操做。在这里以Scrapyd所在的IP地址120.27.34.25为例，咱们能够将接口的功能梳理一下。

1. daemonstatus.json

这个接口负责查看Scrapyd当前的服务和任务状态。咱们能够用curl命令来请求这个接口，命令以下：

curl http://139.217.26.30:6800/daemonstatus.json复制代码

咱们就会获得以下结果：

{"status": "ok", "finished": 90, "running": 9, "node_name": "datacrawl-vm", "pending": 0}复制代码

返回结果是JSON字符串，status是当前运行状态，finished表明当前已经完成的Scrapy任务，running表明正在运行的Scrapy任务，pending表明等待被调度的Scrapyd任务，node_name就是主机的名称。

2. addversion.json

这个接口主要是用来部署Scrapy项目用的。咱们首先将项目打包成Egg文件，而后传入项目名称和部署版本。

咱们能够用以下的方式实现项目部署：

curl http://120.27.34.25:6800/addversion.json -F project=wenbo -F version=first -F egg=@weibo.egg复制代码

在这里， -F 表明添加一个参数，同时咱们还须要将项目打包成Egg文件放到本地。

发出请求以后，咱们能够获得以下结果：

{"status": "ok", "spiders": 3}复制代码

这个结果代表部署成功，而且Spider的数量为3。

此部署方法可能比较烦琐，后文会介绍更方便的工具来实现项目的部署。

3. schedule.json

这个接口负责调度已部署好的Scrapy项目运行。

咱们能够用以下接口实现任务调度：

curl http://120.27.34.25:6800/schedule.json -d project=weibo -d spider=weibocn复制代码

这里须要传入两个参数，project即Scrapy项目名称，spider即Spider名称。

返回结果以下：

{"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}复制代码

status表明Scrapy项目启动状况，jobid表明当前正在运行的爬取任务代号。

4. cancel.json

这个接口能够用来取消某个爬取任务。若是这个任务是pending状态，那么它将会被移除；若是这个任务是running状态，那么它将会被终止。

咱们能够用下面的命令来取消任务的运行：

curl http://120.27.34.25:6800/cancel.json -d project=weibo -d job=6487ec79947edab326d6db28a2d86511e8247444复制代码

这里须要传入两个参数，project即项目名称，job即爬取任务代号。

返回结果以下：

{"status": "ok", "prevstate": "running"}复制代码

status表明请求执行状况，prevstate表明以前的运行状态。

5. listprojects.json

这个接口用来列出部署到Scrapyd服务上的全部项目描述。

咱们能够用以下命令来获取Scrapyd服务器上的全部项目描述：

curl http://120.27.34.25:6800/listprojects.json复制代码

这里不须要传入任何参数。

返回结果以下：

{"status": "ok", "projects": ["weibo", "zhihu"]}复制代码

status表明请求执行状况，projects是项目名称列表。

6. listversions.json

这个接口用来获取某个项目的全部版本号，版本号是按序排列的，最后一个条目是最新的版本号。

咱们能够用以下命令来获取项目的版本号：

curl http://120.27.34.25:6800/listversions.json?project=weibo复制代码

这里须要一个参数project，即项目的名称。

返回结果以下：

{"status": "ok", "versions": ["v1", "v2"]}复制代码

status表明请求执行状况，versions是版本号列表。

7. listspiders.json

这个接口用来获取某个项目最新版本的全部Spider名称。

咱们能够用以下命令来获取项目的Spider名称：

curl http://120.27.34.25:6800/listspiders.json?project=weibo复制代码

这里须要一个参数project，即项目的名称。

返回结果以下：

{"status": "ok", "spiders": ["weibocn"]}复制代码

status表明请求执行状况，spiders是Spider名称列表。

8. listjobs.json

这个接口用来获取某个项目当前运行的全部任务详情。

咱们能够用以下命令来获取全部任务详情：

curl http://120.27.34.25:6800/listjobs.json?project=weibo复制代码

这里须要一个参数project，即项目的名称。

返回结果以下：

{"status": "ok",
 "pending": [{"id": "78391cc0fcaf11e1b0090800272a6d06", "spider": "weibocn"}],
 "running": [{"id": "422e608f9f28cef127b3d5ef93fe9399", "spider": "weibocn", "start_time": "2017-07-12 10:14:03.594664"}],
 "finished": [{"id": "2f16646cfcaf11e1b0090800272a6d06", "spider": "weibocn", "start_time": "2017-07-12 10:14:03.594664", "end_time": "2017-07-12 10:24:03.594664"}]}复制代码

status表明请求执行状况，pendings表明当前正在等待的任务，running表明当前正在运行的任务，finished表明已经完成的任务。

9. delversion.json

这个接口用来删除项目的某个版本。

咱们能够用以下命令来删除项目版本：

curl http://120.27.34.25:6800/delversion.json -d project=weibo -d version=v1复制代码

这里须要一个参数project，即项目的名称，还须要一个参数version，即项目的版本。

返回结果以下：

{"status": "ok"}复制代码

status表明请求执行状况，这样就表示删除成功了。

10. delproject.json

这个接口用来删除某个项目。

咱们能够用以下命令来删除某个项目：

curl http://120.27.34.25:6800/delproject.json -d project=weibo复制代码

这里须要一个参数project，即项目的名称。

返回结果以下：

{"status": "ok"}复制代码

status表明请求执行状况，这样就表示删除成功了。

以上接口是Scrapyd全部的接口。咱们能够直接请求HTTP接口，便可控制项目的部署、启动、运行等操做。

5、Scrapyd API的使用

以上的这些接口可能使用起来还不是很方便。不要紧，还有一个Scrapyd API库对这些接口作了一层封装，其安装方式能够参考第1章的内容。

下面咱们来看看Scrapyd API的使用方法。Scrapyd API的核心原理和HTTP接口请求方式并没有二致，只不过Python封装后的库使用起来更加便捷。

咱们能够用以下方式创建一个Scrapyd API对象：

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://120.27.34.25:6800')复制代码

调用它的方法来实现对应接口的操做，例如部署的操做可使用以下方式：

egg = open('weibo.egg', 'rb')
scrapyd.add_version('weibo', 'v1', egg)复制代码

这样咱们就能够将项目打包为Egg文件，而后把本地打包的的Egg项目部署到远程Scrapyd。

另外，Scrapyd API还实现了全部Scrapyd提供的API接口，名称都是相同的，参数也是相同的。

例如，调用list_projects()方法便可列出Scrapyd中全部已部署的项目：

scrapyd.list_projects()
['weibo', 'zhihu']复制代码

还有其余的方法在此不一一列举了，名称和参数都是相同的。更加详细的操做能够参考官方文档：http://python-scrapyd-api.readthedocs.io/。

6、结语

本节介绍了Scrapyd及Scrapyd API的相关用法，咱们能够经过它来部署项目，并经过HTTP接口控制任务的运行。不过部署过程有一点不方便，项目须要先打包Egg文件而后再上传，这样比较烦琐。在下一节，咱们介绍一个更加方便的工具来完成部署过程。

本资源首发于崔庆才的我的博客静觅： Python3网络爬虫开发实战教程 | 静觅

如想了解更多爬虫资讯，请关注个人我的微信公众号：进击的Coder

weixin.qq.com/r/5zsjOyvEZ… (二维码自动识别)