十、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

时间 2019-12-06

标签 web 爬虫讲解 scrapy 框架安装指令栏目 HTML 繁體版

原文原文链接

【搜网盘:http://www.swpan.cn】

Scrapy框架安装html

一、首先，终端执行命令升级pip: python -m pip install --upgrade pip
二、安装，wheel(建议网络安装) pip install wheel
三、安装，lxml(建议下载安装)
四、安装，Twisted(建议下载安装)
五、安装，Scrapy(建议网络安装) pip install Scrapypython

测试Scrapy是否安装成功mysql

Scrapy框架指令web

scrapy -h 查看帮助信息sql

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench  硬件测试指令，能够测试当前服务器每分钟最多能爬多少个页面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  获取一个网页html源码)
　　genspider 　　　   Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　   Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 进入要建立项目的目录，scrapy startproject 项目名称，建立scrapy项目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()shell

建立项目以及项目说明数据库

scrapy startproject adc 建立项目api

项目说明服务器

目录结构以下：网络

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 项目的配置文件
tems.py: 项目中的item文件，用来定义解析对象对应的属性或字段。
pipelines.py: 负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库） [](http://lib.csdn.net/base/mysql "MySQL知识库")
settings.py: 项目的设置文件.
spiders：实现自定义爬虫的目录
middlewares.py：Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，经过插入自定义代码来扩展Scrapy功能。

项目指令

项目指令是须要cd进入项目目录执行的指令

scrapy -h 项目指令帮助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　   Run a spider
　　edit 　　　　    Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version  查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下载一个网页并打开)

建立爬虫文件

建立爬虫文件是根据scrapy的母版来建立爬虫文件的

scrapy genspider -l 查看scrapy建立爬虫文件可用的母版

Available templates:母版说明
　　basic　　　　建立基础爬虫文件

　　crawl　　　　建立自动爬虫文件
　　csvfeed　　建立爬取csv数据爬虫文件

　　xmlfeed　　　建立爬取xml数据爬虫文件

建立一个基础母版爬虫，其余同理

scrapy genspider -t 母版名称爬虫文件名称要爬取的域名建立一个基础母版爬虫，其余同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬虫文件名称测试一个爬虫文件是否合规
如：scrapy check pach

scrapy crawl 爬虫名称执行爬虫文件，显示日志【重点】

scrapy crawl 爬虫名称 --nolog 执行爬虫文件，不显示日志【重点】
【转载自：http://www.lqkweb.com】

1. 爬虫框架：scrapy 爬虫框架：scrapy
2. 十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登陆—获取Scrapy框架Cookies
3. 爬虫框架scrapy
4. 爬虫、框架scrapy
5. scrapy爬虫框架
6. 爬虫---scrapy框架
7. 爬虫-Scrapy框架
8. 爬虫框架：scrapy
9. Scrapy爬虫框架
10. 爬虫 scrapy框架
更多相关文章...
• Docker 安装 Nginx - Docker教程
• Docker 安装 Node.js - Docker教程
• Composer 安装与使用
• IntelliJ IDEA安装代码格式化插件

十、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

【百度云搜索:http://www.bdyss.com】

【搜网盘:http://www.swpan.cn】