全局命令:shell
startproject:浏览器
语法: dom
scrapy startproject <project_name>;
在 project_name 文件夹下建立一个名为 project_name 的Scrapy项目。scrapy
settings: ide
语法: 函数
scrapy settings [options]
获取Scrapy的设定测试
runspider: fetch
语法: url
scrapy runspider <spider_file.py>
在未建立项目的状况下,运行一个编写在Python文件中的spider。code
shell:
语法:
scrapy shell [url]
以给定的URL(若是给出)或者空(没有给出URL)启动Scrapy shell。
fetch:
语法:
scrapy fetch <url>
使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
view:
语法:
scrapy view <url>
在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展示。
version:
语法:
scrapy version [-v]
输出Scrapy版本。
项目(Project-only)命令:
crawl:
语法:
scrapy crawl <spider>
使用spider进行爬取。
check:
语法:
scrapy check [-l] <spider>
运行contract检查。
list:
语法:
scrapy list
列出当前项目中全部可用的spider。每行输出一个spider。
edit:
语法:
scrapy edit <spider>
编辑给定的spider
parse:
语法:
scrapy parse <url> [options]
获取给定的URL并使用相应的spider分析处理。
--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider --a NAME=VALUE: 设置spider的参数(可能被重复) --callback or -c: spider中用于解析返回(response)的回调函数 --pipelines: 在pipeline中处理item --rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数 --noitems: 不显示爬取到的item --nolinks: 不显示提取到的连接 --nocolour: 避免使用pygments对输出着色 --depth or -d: 指定跟进连接请求的层次数(默认: 1) --verbose or -v: 显示每一个请求的详细信息
genspider:
语法:
scrapy genspider [-t template] <name> <domain>
在当前项目中建立spider。
deploy:
语法:
scrapy deploy [ <target:project> | -l <target> | -L ]
将项目部署到Scrapyd服务。
bench:
语法:
scrapy bench
运行benchmark测试。