网络爬虫之第六章Scrapy-Redis分布式组件

第一节:redis数据库介绍

概述

redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis能够定时把内存数据同步到磁盘,便可以将数据持久化,而且他比memcached支持更多的数据结构(string,list列表[队列和栈],set[集合],sorted set[有序集合],hash(hash表))。相关参考文档:http://redisdoc.com/index.htmlphp

redis使用场景:

  1. 登陆会话存储:存储在redis中,与memcached相比,数据不会丢失。
  2. 排行版/计数器:好比一些秀场类的项目,常常会有一些前多少名的主播排名。还有一些文章阅读量的技术,或者新浪微博的点赞数等。
  3. 做为消息队列:好比celery就是使用redis做为中间人。
  4. 当前在线人数:仍是以前的秀场例子,会显示当前系统有多少在线人数。
  5. 一些经常使用的数据缓存:好比咱们的BBS论坛,板块不会常常变化的,可是每次访问首页都要从mysql中获取,能够在redis中缓存起来,不用每次请求数据库。
  6. 把前200篇文章缓存或者评论缓存:通常用户浏览网站,只会浏览前面一部分文章或者评论,那么能够把前面200篇文章和对应的评论缓存起来。用户访问超过的,就访问数据库,而且之后文章超过200篇,则把以前的文章删除。
  7. 好友关系:微博的好友关系使用redis实现。
  8. 发布和订阅功能:能够用来作聊天软件。

redismemcached的比较:

  memcached redis
类型 纯内存数据库 内存磁盘同步数据库
数据类型 在定义value时就要固定数据类型 不须要
虚拟内存 不支持 支持
过时策略 支持 支持
存储数据安全 不支持 能够将数据同步到dump.db中
灾难恢复 不支持 能够将磁盘中的数据恢复到内存中
分布式 支持 主从同步
订阅与发布 不支持 支持

redisubuntu系统中的安装与启动

  1. 安装:
    sudo apt-get install redis-server
  2. 卸载:
    sudo apt-get purge --auto-remove redis-server
  3. 启动:redis安装后,默认会自动启动,能够经过如下命令查看:html

    ps aux|grep redis

    若是想本身手动启动,能够经过如下命令进行启动:python

    sudo service redis-server start
  4. 中止:mysql

    sudo service redis-server stop

redis在windows系统中的安装与启动:

  1. 下载:redis官方是不支持windows操做系统的。可是微软的开源部门将redis移植到了windows上。所以下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis/releases。
  2. 安装:点击一顿下一步安装就能够了。
  3. 运行:进入到redis安装所在的路径而后执行redis-server.exe redis.windows.conf就能够运行了。
  4. 链接:redismysql以及mongo是同样的,都提供了一个客户端进行链接。输入命令redis-cli(前提是redis安装路径已经加入到环境变量中了)就能够链接到redis服务器了。

其余机器访问本机redis服务器:

想要让其余机器访问本机的redis服务器。那么要修改redis.conf的配置文件,将bind改为bind [本身的ip地址或者0.0.0.0],其余机器才能访问。
注意:bind绑定的是本机网卡的ip地址,而不是想让其余机器链接的ip地址。若是有多块网卡,那么能够绑定多个网卡的ip地址。若是绑定到额是0.0.0.0,那么意味着其余机器能够经过本机全部的ip地址进行访问。
git

redis的操做

redis的操做能够用两种方式,第一种方式采用redis-cli,第二种方式采用编程语言,好比PythonPHPJAVA等。 github

  1. 使用redis-cliredis进行字符串操做:web

  2. 启动redisredis

    sudo service redis-server start
  3. 链接上redis-server
    redis-cli -h [ip] -p [端口]
  4. 添加:sql

    set key value 如: set username xiaotuo

    将字符串值value关联到key。若是key已经持有其余值,set命令就覆写旧值,无视其类型。而且默认的过时时间是永久,即永远不会过时。数据库

  5. 删除:

    del key 如: del username
  6. 设置过时时间:

    expire key timeout(单位为秒)

    也能够在设置值的时候,一同指定过时时间:

    set key value EX timeout 或: setex key timeout value
  7. 查看过时时间:

    ttl key 如: ttl username
  8. 查看当前redis中的全部key

    keys *
  9. 列表操做:

    • 在列表左边添加元素:

      lpush key value

      将值value插入到列表key的表头。若是key不存在,一个空列表会被建立并执行lpush操做。当key存在但不是列表类型时,将返回一个错误。

    • 在列表右边添加元素:

      rpush key value

      将值value插入到列表key的表尾。若是key不存在,一个空列表会被建立并执行RPUSH操做。当key存在但不是列表类型时,返回一个错误。

    • 查看列表中的元素:

      lrange key start stop

      返回列表key中指定区间内的元素,区间以偏移量startstop指定,若是要左边的第一个到最后的一个lrange key 0 -1

    • 移除列表中的元素:

      • 移除并返回列表key的头元素:
        lpop key
      • 移除并返回列表的尾元素:
        rpop key
      • 移除并返回列表key的中间元素:

        lrem key count value

        将删除key这个列表中,count个值为value的元素。

    • 指定返回第几个元素:

      lindex key index

      将返回key这个列表中,索引为index的这个元素。

    • 获取列表中的元素个数:

      llen key 如: llen languages
    • 删除指定的元素:

      lrem key count value
        如:
        lrem languages 0 php

      根据参数 count 的值,移除列表中与参数 value 相等的元素。count的值能够是如下几种:

      • count > 0:从表头开始向表尾搜索,移除与value相等的元素,数量为count
      • count < 0:从表尾开始向表头搜索,移除与 value相等的元素,数量为count的绝对值。
      • count = 0:移除表中全部与value 相等的值。
  10. set集合的操做:

    • 添加元素:
      sadd set value1 value2....
        如:
        sadd team xiaotuo datuo
    • 查看元素:
      smembers set
        如:
        smembers team
    • 移除元素:
      srem set member...
        如:
        srem team xiaotuo datuo
    • 查看集合中的元素个数:
      scard set
        如:
        scard team1
    • 获取多个集合的交集:
      sinter set1 set2
        如:
        sinter team1 team2
    • 获取多个集合的并集:
      sunion set1 set2
        如:
        sunion team1 team2
    • 获取多个集合的差集:
      sdiff set1 set2
      如:
      sdiff team1 team2
  11. hash哈希操做:

    • 添加一个新值:

      hset key field value
        如:
        hset website baidu baidu.com

      将哈希表key中的域field的值设为value
      若是key不存在,一个新的哈希表被建立并进行 HSET操做。若是域 field已经存在于哈希表中,旧值将被覆盖。

    • 获取哈希中的field对应的值:

      hget key field
        如:
        hget website baidu
    • 删除field中的某个field

      hdel key field
        如:
        hdel website baidu
    • 获取某个哈希中全部的fieldvalue

      hgetall key
        如:
        hgetall website
    • 获取某个哈希中全部的field

      hkeys key
        如:
        hkeys website
    • 获取某个哈希中全部的值:

      hvals key
      如:
      hvals website
    • 判断哈希中是否存在某个field

      hexists key field
      如:
      hexists website baidu
    • 获取哈希中总共的键值对:

      hlen field
      如:
      hlen website
  12. 事务操做:Redis事务能够一次执行多个命令,事务具备如下特征:

    • 隔离操做:事务中的全部命令都会序列化、按顺序地执行,不会被其余命令打扰。
    • 原子操做:事务中的命令要么所有被执行,要么所有都不执行。
    • 开启一个事务:

      multi

      之后执行的全部命令,都在这个事务中执行的。

    • 执行事务:

      exec

      会将在multiexec中的操做一并提交。

    • 取消事务:

      discard

      会将multi后的全部命令取消。

    • 监视一个或者多个key

      watch key...

      监视一个(或多个)key,若是在事务执行以前这个(或这些) key被其余命令所改动,那么事务将被打断。

    • 取消全部key的监视:

      unwatch
  13. 发布/订阅操做:

    • 给某个频道发布消息:
      publish channel message
    • 订阅某个频道的消息:
       subscribe channel 
 

第二节:Scrapy-Redis分布式爬虫组件

Scrapy是一个框架,他自己是不支持分布式的。若是咱们想要作分布式的爬虫,就须要借助一个组件叫作Scrapy-Redis,这个组件正是利用了Redis能够分布式的功能,集成到Scrapy框架中,使得爬虫能够进行分布式。能够充分的利用资源(多个ip、更多带宽、同步爬取)来提升爬虫的爬行效率。

分布式爬虫的优势:

  1. 能够充分利用多台机器的带宽。
  2. 能够充分利用多台机器的ip地址。
  3. 多台机器作,爬取效率更高。

分布式爬虫必需要解决的问题:

  1. 分布式爬虫是好几台机器在同时运行,如何保证不一样的机器爬取页面的时候不会出现重复爬取的问题。
  2. 一样,分布式爬虫在不一样的机器上运行,在把数据爬完后如何保证保存在同一个地方。

安装:

经过pip install scrapy-redis便可安装。

Scrapy-Redis架构:

Scrapy架构图:

Scrapy-Redis架构图:

分布式爬虫架构图:

以上两个图片对比咱们能够发现。Item Pipeline在接收到数据后发送给了RedisScheduler调度器调度数据也是从Redis中来的、而且其实数据去重也是在Redis中作的。

编写Scrapy-Redis分布式爬虫:

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改如下三点就能够了:

  1. 将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider
  2. 将爬虫中的start_urls删掉。增长一个redis_key="xxx"。这个redis_key是为了之后在redis中控制爬虫启动的。爬虫的第一个url,就是在redis中经过这个发送出去的。
  3. 在配置文件中增长以下配置:
# Scrapy-Redis相关配置 # 确保request存储到redis中 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 确保全部爬虫共享相同的去重指纹 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置redis为item pipeline ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 } # 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而能够实现暂停和恢复的功能。 SCHEDULER_PERSIST = True # 设置链接redis信息 REDIS_HOST = '127.0.0.1' REDIS_PORT = 6379 
  1. 运行爬虫:
    1. 在爬虫服务器上。进入爬虫文件所在的路径,而后输入命令:scrapy runspider [爬虫名字]
    2. Redis服务器上,推入一个开始的url连接:redis-cli> lpush [redis_key] start_url开始爬取。
相关文章
相关标签/搜索