spider-经过scrapyd网页管理工具执行scrapy框架

时间 2019-12-14

标签 spider 经过 scrapyd 网页管理工具执行 scrapy 框架栏目 HTML 繁體版

原文原文链接

1.首先写一个scrapy框架爬虫的项目python

scrapy startproject 项目名称     # 建立项目
cd 项目名称
scrapy genspider 爬虫名称 爬虫网址（www.xxxx）       #生成一个爬虫
scrapy crawl 爬虫名称             # 启动爬虫

2.部署环境git

pip install scrapyd    
pip install scrapyd-client

3.在爬虫项目目录下输入命令：scrapyd，已经在本地6800端口运行json

4.在爬虫根目录执行：scrapyd-deploy,若是提示不是内部命令，须要到python目录下scripts下新建一个名为scrapyd-deploy.bat的文件，最好复制，其中有必要的空格可能会遗漏致使报错，路径参考各自的路径bash

@echo off
"C:\Users\lu\AppData\Local\Programs\Python\Python37-32\python.exe" "C:\Users\lu\AppData\Local\Programs\Python\Python37-32\Scripts\scrapyd-deploy" %*

5.在爬虫项目根目录下执行：框架

scrapyd-deploy 爬虫名称 -p 爬虫项目名称

6.如遇到报错：Unknown target: 爬虫名称，找到该爬虫项目的scrapy.cfg，做以下修改：curl

[deploy:abckg]      # 加冒号爬虫名称
url = http://localhost:6800/     #  去掉井号
project = ABCkg            # 项目名称

7.从新执行第5条操做：此时提示okscrapy

8.若是打开上图中连接显示状态为error，能够直接在6800端口复制：curl http://localhost:6800/schedule.json -d project=default -d spider=somespider在cmd命令行执行，能够获得状态：okide

curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

若遇到提示curl不是内部命令，能够在git bash里执行。工具

9.此时该项目已经部署到网页上url

10.点击jobs，此时scrapy项目已经在运行中，点击右侧log能够查看爬虫日志

至此！完毕！！完美实现经过scrapyd网页管理工具执行scrapy框架

相关文章

相关标签/搜索

scrapyd+scrapyd

scrapy+scrapyd+scrapydweb

网站品质教程

网站建设指南

网站主机教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<