Scrapy简单入门及实例讲解

时间 2019-11-08

原文原文链接

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其能够应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来讲, 网络抓取 )所设计的，也能够应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途普遍，能够用于数据挖掘、监测和自动化测试。html

Scrapy 使用了 Twisted异步网络库来处理网络通信。总体架构大体以下python

Scrapy主要包括了如下组件：windows

引擎(Scrapy)
用来处理整个系统的数据流, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 能够想像成一个URL（抓取网页的网址或者说是连接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是创建在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取本身须要的信息, 即所谓的实体(Item)。用户也能够从中提取出连接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证明体的有效性、清除不须要的信息。当页面被爬虫解析后，将被发送到项目管道，并通过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工做是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概以下：网络

引擎从调度器中取出一个连接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是连接（URL）,则把URL交给调度器等待抓取

1、安装架构

    一、安装wheel
        pip install wheel
    二、安装lxml
        https://pypi.python.org/pypi/lxml/4.1.0
    三、安装pyopenssl
        https://pypi.python.org/pypi/pyOpenSSL/17.5.0
    四、安装Twisted
        https://www.lfd.uci.edu/~gohlke/pythonlibs/
    五、安装pywin32
        https://sourceforge.net/projects/pywin32/files/
    六、安装scrapy
        pip install scrapy

注：windows平台须要依赖pywin32，请根据本身系统32/64位选择下载安装，https://sourceforge.net/projects/pywin32/并发

2、爬虫举例框架

入门篇：美剧天堂前100最新（http://www.meijutt.com/new100.html）dom

一、建立工程异步

 
        scrapy startproject movie

二、建立爬虫程序scrapy

 
        cd movie 
       
        scrapy genspider meiju meijutt.com

三、自动建立目录及文件

四、文件说明：

scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
items.py 设置数据存储模板，用于结构化数据，如：Django的Model
pipelines 数据处理行为，如：通常结构化的数据持久化
settings.py 配置文件，如：递归的层数、并发数，延迟下载等
spiders 爬虫目录，如：建立文件，编写爬虫规则

注意：通常建立爬虫文件时，以网站域名命名

五、设置数据存储模板

　　items.py

 
        import scrapy 
       
        class  
        MovieItem(scrapy.Item): 
       
        # define the fields for your item here like: 
       
        # name = scrapy.Field() 
       
        name = scrapy.Field()

六、编写爬虫

　　meiju.py

 
        # -*- coding: utf-8 -*- 
       
        import scrapy 
       
        from  
        movie.items import MovieItem 
       
        class  
        MeijuSpider(scrapy.Spider): 
       
        name =  
        "meiju" 
       
        allowed_domains = [ 
        "meijutt.com" 
        ] 
       
        start_urls = [ 
        'http://www.meijutt.com/new100.html' 
        ] 
       
        def parse(self, response): 
       
        movies = response.xpath( 
        '//ul[@class="top-list  fn-clear"]/li' 
        ) 
       
        for  
        each_movie  
        in  
        movies: 
       
        item = MovieItem() 
       
        item[ 
        'name' 
        ] = each_movie.xpath( 
        './h5/a/@title' 
        ).extract()[0] 
       
        yield item

七、设置配置文件

　　settings.py增长以下内容

 
        ITEM_PIPELINES = { 
        'movie.pipelines.MoviePipeline' 
        :100}

八、编写数据处理脚本

　　pipelines.py

 
        class  
        MoviePipeline( 
        object 
        ): 
       
        def process_item(self, item, spider): 
       
        with open( 
        "my_meiju.txt" 
        , 
        'a' 
        )  
        as  
        fp: 
       
        fp.write(item[ 
        'name' 
        ].encode( 
        "utf8" 
        ) +  
        '\n' 
        )

九、执行爬虫

 
        cd movie 
       
        scrapy crawl meiju --nolog

十、结果

1. Scrapy简单入门及实例讲解
2. 10，Scrapy简单入门及实例讲解
3. LockSupport简单讲解及实例
4. zookeeper 入门讲解实例
5. SparkSql入门及简单实例
6. opengl简单入门实例
7. RabbitMQ简单入门实例
8. JCrontab简单入门实例
9. WEBRTC--简单入门实例
10. Axis 简单入门实例
更多相关文章...
• PHP 完整表单实例 - PHP教程
• Memcached入门教程 - NoSQL教程
• YAML 入门教程
• Java Agent入门实战（一）-Instrumentation介绍与使用