python爬虫经常使用之Scrapy 简述

1、安装框架

    pip install scrapy. 若是提示须要什么包就装什么包scrapy

    有的包pip安装不起,须要本身下载whl文件进行安装.url

2、基本的爬虫流程中间件

     通用爬虫有以下几步:对象

        构造url -->> 请求,获取页面内容  -->> 分析页面内容(解析) -->> 保存结果     ip

3、scrapy的爬虫流程it

    scrapy的流程与普通爬虫相同,有url做为输入--start_urls;pip

  有请求--Requests,一般不须要本身构建,须要特殊参数时可以使用settings配置,或者编写中间件;import

       有分析--parse方法,直接传入返回的response对象便可,内置的解析方法多种多样,也能够直接import解析库进行解析;配置

       有储存--使用item在爬虫中保存爬取到的对象,在pipline里进行持久化,也能够直接在代码中写文件或者使用"-o"参数...

4、总结

      scrapy的最大优势就是通用,你的大部分爬虫均可以scrapy去实现去操做,省去了不少构造请求和框架的时间.

      scrapy的最大缺点也来源于通用,使用的时候总以为和我须要的有出入,因此要本身去写中间件,本身去适配流程.

相关文章
相关标签/搜索