redis
是一种支持分布式的nosql
数据库,他的数据是保存在内存中,同时redis
能够定时把内存数据同步到磁盘,便可以将数据持久化,而且他比memcached
支持更多的数据结构(string
,list列表[队列和栈]
,set[集合]
,sorted set[有序集合]
,hash(hash表)
)。相关参考文档:http://redisdoc.com/index.htmlphp
redis
中,与memcached
相比,数据不会丢失。celery
就是使用redis
做为中间人。BBS
论坛,板块不会常常变化的,可是每次访问首页都要从mysql
中获取,能够在redis
中缓存起来,不用每次请求数据库。redis
实现。redis
和memcached
的比较:memcached | redis | |
---|---|---|
类型 | 纯内存数据库 | 内存磁盘同步数据库 |
数据类型 | 在定义value时就要固定数据类型 | 不须要 |
虚拟内存 | 不支持 | 支持 |
过时策略 | 支持 | 支持 |
存储数据安全 | 不支持 | 能够将数据同步到dump.db中 |
灾难恢复 | 不支持 | 能够将磁盘中的数据恢复到内存中 |
分布式 | 支持 | 主从同步 |
订阅与发布 | 不支持 | 支持 |
redis
在ubuntu
系统中的安装与启动sudo apt-get install redis-server
sudo apt-get purge --auto-remove redis-server
启动:redis
安装后,默认会自动启动,能够经过如下命令查看:html
ps aux|grep redis
若是想本身手动启动,能够经过如下命令进行启动:python
sudo service redis-server start
中止:mysql
sudo service redis-server stop
redis
安装所在的路径而后执行redis-server.exe redis.windows.conf
就能够运行了。redis
和mysql
以及mongo
是同样的,都提供了一个客户端进行链接。输入命令redis-cli
(前提是redis安装路径已经加入到环境变量中了)就能够链接到redis
服务器了。想要让其余机器访问本机的redis服务器。那么要修改redis.conf的配置文件,将bind改为bind [本身的ip地址或者0.0.0.0]
,其余机器才能访问。
注意:bind绑定的是本机网卡的ip地址,而不是想让其余机器链接的ip地址。若是有多块网卡,那么能够绑定多个网卡的ip地址。若是绑定到额是0.0.0.0,那么意味着其余机器能够经过本机全部的ip地址进行访问。git
redis
的操做对redis
的操做能够用两种方式,第一种方式采用redis-cli
,第二种方式采用编程语言,好比Python
、PHP
和JAVA
等。 github
使用redis-cli
对redis
进行字符串操做:web
启动redis
:redis
sudo service redis-server start
redis-server
: redis-cli -h [ip] -p [端口]
添加:sql
set key value 如: set username xiaotuo
将字符串值value
关联到key
。若是key
已经持有其余值,set
命令就覆写旧值,无视其类型。而且默认的过时时间是永久,即永远不会过时。数据库
删除:
del key 如: del username
设置过时时间:
expire key timeout(单位为秒)
也能够在设置值的时候,一同指定过时时间:
set key value EX timeout 或: setex key timeout value
查看过时时间:
ttl key 如: ttl username
查看当前redis
中的全部key
:
keys *
列表操做:
在列表左边添加元素:
lpush key value
将值value
插入到列表key
的表头。若是key
不存在,一个空列表会被建立并执行lpush
操做。当key
存在但不是列表类型时,将返回一个错误。
在列表右边添加元素:
rpush key value
将值value插入到列表key的表尾。若是key不存在,一个空列表会被建立并执行RPUSH操做。当key存在但不是列表类型时,返回一个错误。
查看列表中的元素:
lrange key start stop
返回列表key
中指定区间内的元素,区间以偏移量start
和stop
指定,若是要左边的第一个到最后的一个lrange key 0 -1
。
移除列表中的元素:
key
的头元素: lpop key
rpop key
移除并返回列表key
的中间元素:
lrem key count value
将删除key
这个列表中,count
个值为value
的元素。
指定返回第几个元素:
lindex key index
将返回key
这个列表中,索引为index
的这个元素。
获取列表中的元素个数:
llen key 如: llen languages
删除指定的元素:
lrem key count value 如: lrem languages 0 php
根据参数 count 的值,移除列表中与参数 value 相等的元素。count
的值能够是如下几种:
value
相等的元素,数量为count
。value
相等的元素,数量为count
的绝对值。value
相等的值。set
集合的操做:
sadd set value1 value2.... 如: sadd team xiaotuo datuo
smembers set 如: smembers team
srem set member... 如: srem team xiaotuo datuo
scard set 如: scard team1
sinter set1 set2 如: sinter team1 team2
sunion set1 set2 如: sunion team1 team2
sdiff set1 set2 如: sdiff team1 team2
hash
哈希操做:
添加一个新值:
hset key field value 如: hset website baidu baidu.com
将哈希表key
中的域field
的值设为value
。
若是key
不存在,一个新的哈希表被建立并进行 HSET
操做。若是域 field
已经存在于哈希表中,旧值将被覆盖。
获取哈希中的field
对应的值:
hget key field 如: hget website baidu
删除field
中的某个field
:
hdel key field 如: hdel website baidu
获取某个哈希中全部的field
和value
:
hgetall key 如: hgetall website
获取某个哈希中全部的field
:
hkeys key 如: hkeys website
获取某个哈希中全部的值:
hvals key 如: hvals website
判断哈希中是否存在某个field
:
hexists key field 如: hexists website baidu
获取哈希中总共的键值对:
hlen field 如: hlen website
事务操做:Redis事务能够一次执行多个命令,事务具备如下特征:
开启一个事务:
multi
之后执行的全部命令,都在这个事务中执行的。
执行事务:
exec
会将在multi
和exec
中的操做一并提交。
取消事务:
discard
会将multi
后的全部命令取消。
监视一个或者多个key
:
watch key...
监视一个(或多个)key,若是在事务执行以前这个(或这些) key被其余命令所改动,那么事务将被打断。
取消全部key
的监视:
unwatch
发布/订阅操做:
publish channel message
subscribe channel
Scrapy
是一个框架,他自己是不支持分布式的。若是咱们想要作分布式的爬虫,就须要借助一个组件叫作Scrapy-Redis
,这个组件正是利用了Redis
能够分布式的功能,集成到Scrapy
框架中,使得爬虫能够进行分布式。能够充分的利用资源(多个ip、更多带宽、同步爬取)来提升爬虫的爬行效率。
经过pip install scrapy-redis
便可安装。
Scrapy架构图:
Scrapy-Redis架构图:
分布式爬虫架构图:
以上两个图片对比咱们能够发现。Item Pipeline
在接收到数据后发送给了Redis
、Scheduler
调度器调度数据也是从Redis
中来的、而且其实数据去重也是在Redis
中作的。
要将一个Scrapy
项目变成一个Scrapy-redis
项目只需修改如下三点就能够了:
scrapy.Spider
变成scrapy_redis.spiders.RedisSpider
;或者是从scrapy.CrawlSpider
变成scrapy_redis.spiders.RedisCrawlSpider
。 start_urls
删掉。增长一个redis_key="xxx"
。这个redis_key
是为了之后在redis
中控制爬虫启动的。爬虫的第一个url,就是在redis中经过这个发送出去的。 # Scrapy-Redis相关配置 # 确保request存储到redis中 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 确保全部爬虫共享相同的去重指纹 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置redis为item pipeline ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 } # 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而能够实现暂停和恢复的功能。 SCHEDULER_PERSIST = True # 设置链接redis信息 REDIS_HOST = '127.0.0.1' REDIS_PORT = 6379
scrapy runspider [爬虫名字]
。Redis
服务器上,推入一个开始的url连接:redis-cli> lpush [redis_key] start_url
开始爬取。