Scrapyd 项目爬虫部署

scrapyd是一个用于部署和运行scrapy爬虫的程序,它容许你经过JSON API来部署爬虫项目和控制爬虫运行
scrapyd是一个守护进程,监听爬虫的运行和请求,而后启动进程来执行它们
安装扩展
pip install scrapyd
pip install scrapyd-client
 
首先修改项目的 scrapy.cfg 文件
原始内容为
[deploy]
#url = http://localhost:6800/
project = funsion
 
修改成
[deploy:funsion]
url = http://localhost:6800/
project = funsion
 
scrapyd部署的核心三步骤(蓝色加粗内容)
执行 nohup scrapyd > /dev/null 2>&1 &
 
检查配置, 列出当前可用的服务器 scrapyd-deploy -l

列出服务器上全部的项目, 须要确保服务器上的scrapyd命令正在执行,不然会报链接失败.首次运行的话,能够看到只有一个default项目
scrapyd-deploy -L funsion
 
在爬虫项目根目录下执行下面的命令, 其中target为上一步配置的服务器名称,project为项目名称,能够根据实际状况本身指定。
用法 scrapyd-deploy <target> -p <project>html

在项目根目 录下输入 scrapyd-deploy funsion -p funsion
获得如下结果
Packing version 1496109534
Deploying to project "funsion" in http://localhost:6800/addversion.json
Server response (200):
{"status": "ok", "project": "funsion", "version": "1496109534", "spiders": 1, "node_name": "localhost.localdomain"}

部署操做会打包你的当前项目,若是当前项目下有setup.py文件,就会使用它,没有的会就会自动建立一个。
若是后期项目须要打包的话,能够根据本身的须要修改里面的信息,也能够暂时无论它。
从返回的结果里面,咱们能够看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称
检查部署结果 scrapyd-deploy -L funsionnode

 
调度爬虫,在项目根目录下
curl http://localhost:6800/schedule.json -d project=funsion -d spider=funsion
 
若是配置了多个服务器的话,能够将项目直接部署到多台服务器
scrapyd-deploy -a -p <project>
 
补充说明:
curl http://localhost:6800/listprojects.json    (列出项目)
curl http://localhost:6800/listspiders.json?project=funsion    (列出爬虫)
curl http://localhost:6800/listjobs.json?project=funsion    (列出job)
curl http://localhost:6800/cancel.json -d project=myproject -d job=你的jobId    (取消爬虫)
 
而后访问 http://localhost:6800/jobs 能够查询图像化界面,成功后应该和下图相似
 
更多参考
http://scrapyd.readthedocs.io/en/stable/   (Scrapyd 文档
相关文章
相关标签/搜索