网络爬虫框架-Scrapy

时间 2019-12-17

标签网络爬虫框架 scrapy 栏目系统网络繁體版

原文原文链接

网络爬虫框架-Scrapyweb

简介：开源的Python爬虫框架，用于抓取web站点并从页面中提取结构化的数据；数据库

用途普遍，可用于数据挖掘、监测和自动化测试网络

Scrapy优势：架构

Scrapy高级特性：框架

Scrapy架构:scrapy

Scrapy的安装：ide

`conda install -c conda-forge scrapy`函数

检测是否安装成功：`scrapy bench`测试

建立工程：`scrapy startproject tutorial(项目名称)`网站

目录结构：

Scrapy使用步骤：

定义Item，构造爬取的对象(可选）

object1_name = scrapy.Field() 
object2_name = scrapy.Filed()
object3_name = scrapy.Field()
#建立若干个自定义爬取对象的名称

编写Spider，爬虫主体

cd projectname
scrapy genspider spidername http://www.baidu.com/
#spidername(自定义Spider主体的文件名称)，后接须要爬取的网站url。

编写配置和Pipeline，用于处理爬取的结果(可选）
- 目的：处理解析的Item，将结果保存为CSV文件
- 在文件-setting.py中配置CommentPipeline，其中，优先级为300，优先级的数值越小，优先级越高。　　
- 将文件-pipelines.py中编写的类添加到文件-setting.py中设置优先级数值。
- 在文件-pipelines.py中定义的类，添加/编写open_spider()，close_spider()、process_item()函数。

执行爬虫Spider：

scrapy crawl Spidername
#Spidername和Sipder主体的文件名称一致