python爬虫经常使用之Scrapy 简述

时间 2019-12-09

标签 python 爬虫经常使用 scrapy 简述栏目 Python 繁體版

原文原文链接

1、安装框架

pip install scrapy. 若是提示须要什么包就装什么包scrapy

有的包pip安装不起,须要本身下载whl文件进行安装.url

2、基本的爬虫流程中间件

通用爬虫有以下几步:对象

构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->>　保存结果　ip

3、scrapy的爬虫流程it

scrapy的流程与普通爬虫相同，有url做为输入－－start_urls；pip

　　有请求－－Requests,一般不须要本身构建,须要特殊参数时可以使用settings配置,或者编写中间件；import

有分析－－parse方法,直接传入返回的response对象便可,内置的解析方法多种多样,也能够直接import解析库进行解析；配置

有储存－－使用item在爬虫中保存爬取到的对象,在pipline里进行持久化,也能够直接在代码中写文件或者使用"-o"参数...

4、总结

scrapy的最大优势就是通用,你的大部分爬虫均可以scrapy去实现去操做,省去了不少构造请求和框架的时间.

scrapy的最大缺点也来源于通用,使用的时候总以为和我须要的有出入,因此要本身去写中间件,本身去适配流程.