1、安装框架
pip install scrapy. 若是提示须要什么包就装什么包scrapy
有的包pip安装不起,须要本身下载whl文件进行安装.url
2、基本的爬虫流程中间件
通用爬虫有以下几步:对象
构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果 ip
3、scrapy的爬虫流程it
scrapy的流程与普通爬虫相同,有url做为输入--start_urls;pip
有请求--Requests,一般不须要本身构建,须要特殊参数时可以使用settings配置,或者编写中间件;import
有分析--parse方法,直接传入返回的response对象便可,内置的解析方法多种多样,也能够直接import解析库进行解析;配置
有储存--使用item在爬虫中保存爬取到的对象,在pipline里进行持久化,也能够直接在代码中写文件或者使用"-o"参数...
4、总结
scrapy的最大优势就是通用,你的大部分爬虫均可以scrapy去实现去操做,省去了不少构造请求和框架的时间.
scrapy的最大缺点也来源于通用,使用的时候总以为和我须要的有出入,因此要本身去写中间件,本身去适配流程.