缓存是分布式系统中的重要组件,主要解决高并发,大数据场景下,热点数据访问的性能问题。提供高性能的数据快速访问。前端
本文是缓存在分布式应用第二篇文章,介绍分布式缓存,Memcache,Redis,本地缓存(硬盘缓存,内存缓存)以及缓存在分布式系统中的架构示例。本文主要是本身的学习总结和网络文章摘录,供学习之用。mysql
CDN,反向代理缓存,主要解决静态文件,或用户请求资源的缓存,数据源通常为静态文件或动态生成的文件(有缓存头标识)。git
分布式缓存,主要指缓存用户常常访问数据的缓存,数据源为数据库。通常起到热点数据访问和减轻数据库压力的做用。github
目前分布式缓存设计,在大型网站架构中是必备的架构要素。经常使用的中间件有Memcache,Redis。redis
Memcache是一个高性能,分布式内存对象缓存系统,经过在内存里维护一个统一的巨大的hash表,它可以用来存储各类格式的数据,包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中,而后从内存中读取,从而大大提升读取速度。算法
Memcache特性:sql
(1)使用物理内存做为缓存区,可独立运行在服务器上。每一个进程最大2G,若是想缓存更多的数据,能够开辟更多的memcache进程(不一样端口)或者使用分布式memcache进行缓存,将数据缓存到不一样的物理机或者虚拟机上。数据库
(2)使用key-value的方式来存储数据,这是一种单索引的结构化数据组织形式,可以使数据项查询时间复杂度为O(1)。后端
(3)协议简单:基于文本行的协议,直接经过telnet在memcached服务器上可进行存取数据操做,简单,方便多种缓存参考此协议;浏览器
(4)基于libevent高性能通讯:Libevent是一套利用C开发的程序库,它将BSD系统的kqueue,Linux系统的epoll等事件处理功能封装成一个接口,与传统的select相比,提升了性能。
(5)内置的内存管理方式:全部数据都保存在内存中,存取数据比硬盘快,当内存满后,经过LRU算法自动删除不使用的缓存,但没有考虑数据的容灾问题,重启服务,全部数据会丢失。
(6)分布式:各个memcached服务器之间互不通讯,各自独立存取数据,不共享任何信息 下载地址 。服务器并不具备分布式功能,分布式部署取决于memcache客户端。
(7)缓存策略:Memcached的缓存策略是LRU(最近最少使用)到期失效策略。在memcached内存储数据项时,能够指定它在缓存的失效时间,默认为永久。当memcached服务器用完分配的内时,失效的数据被首先替换,而后也是最近未使用的数据。在LRU中,memcached使用的是一种Lazy Expiration策略,本身不会监控存入的key/vlue对是否过时,而是在获取key值时查看记录的时间戳,检查key/value对空间是否过时,这样可减轻服务器的负载。
MemCache的工做流程以下:
(1) 先检查客户端的请求数据是否在memcached中,若有,直接把请求数据返回,再也不对数据库进行任何操做;
(2) 若是请求的数据不在memcached中,就去查数据库,把从数据库中获取的数据返回给客户端,同时把数据缓存一份到memcached中(memcached客户端不负责,须要程序实现);
(3) 每次更新数据库的同时更新memcached中的数据,保证一致性;
(4) 当分配给memcached内存空间用完以后,会使用LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效数据首先被替换,而后再替换掉最近未使用的数据。
memcached 虽然称为 “ 分布式 ” 缓存服务器,但服务器端并无 “ 分布式 ” 功能。每一个服务器都是彻底独立和隔离的服务。 memcached 的分布式,是由客户端程序实现的。
当向memcached集群存入/取出key value时,memcached客户端程序根据必定的算法计算存入哪台服务器,而后再把key value值存到此服务器中。
存取数据分二步走,第一步,选择服务器,第二步存取数据。
分布式算法(Consistent Hashing下载地址 ):
选择服务器算法有两种,一种是根据余数来计算分布,另外一种是根据散列算法来计算分布。
余数算法:
先求得键的整数散列值,再除以服务器台数,根据余数肯定存取服务器。
优势:计算简单,高效;
缺点:在memcached服务器增长或减小时,几乎全部的缓存都会失效。
散列算法:(一致性Hash)
先算出memcached服务器的散列值,并将其分布到0到2的32次方的圆上,而后用一样的方法算出存储数据的键的散列值并映射至圆上,最后从数据映射到的位置开始顺时针查找,将数据保存到查找到的第一个服务器上,若是超过2的32次方,依然找不到服务器,就将数据保存到第一台memcached服务器上。
若是添加了一台memcached服务器,只在圆上增长服务器的逆时针方向的第一台服务器上的键会受到影响。
一致性Hash算法:解决了余数算法增长节点命中大幅额度下降的问题,理论上,插入一个实体节点,平均会影响到:虚拟节点数 /2 的节点数据的命中。
Redis 是一个开源(BSD许可)的,基于内存的,多数据结构存储系统。能够用做数据库、缓存和消息中间件。 支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bitmaps, hyperloglogs 和 地理空间(geospatial) 索引半径查询。
内置了 复制(replication),LUA脚本(Lua scripting), LRU驱动事件(LRU eviction),事务(transactions) 和不一样级别的 磁盘持久化(persistence), 并经过 Redis哨兵(Sentinel)和自动分区(Cluster)提供高可用性(high availability)。
一、String
经常使用命令:set,get,decr,incr,mget 。
应用场景:String是最经常使用的一种数据类型,与Memcache的key value存储方式相似。
实现方式:String在redis内部存储默认就是一个字符串,被redisObject所引用,当遇到incr,decr等操做时会转成数值型进行计算,此时redisObject的encoding字段为int。
二、Hash
经常使用命令:hget,hset,hgetall 。
应用场景:以存储一个用户信息对象数据,为例:
实现方式:
Redis Hash对应的Value,内部实际就是一个HashMap,实际这里会有2种不一样实现。
(1) Hash的成员比较少时Redis为了节省内存会采用相似一维数 组的方式来紧凑存储,而不会采用真正的HashMap结构,对应的value redisObject的encoding为zipmap;
(2) 当成员数量增大时会自动转成真正的HashMap,此时encoding为ht下载地址 。
三、List
经常使用命令:lpush,rpush,lpop,rpop,lrange。
应用场景:
Redis list的应用场景很是多,也是Redis最重要的数据结构之一,好比twitter的关注列表,粉丝列表等均可以用Redis的list结构来实现。
实现方式:
Redis list的实现为一个双向链表,能够支持反向查找和遍历,方便操做。不过带来了部分额外的内存开销,Redis内部的不少实现,包括发送缓冲队列等也都是用的这个数据结构。
四、Set
经常使用命令:sadd,spop,smembers,sunion。
应用场景:
Redis set对外提供的功能与list相似是一个列表的功能,特殊之处在于set是能够自动排重的,当你须要存储一个列表数据,又不但愿出现重复数据时,set 是一个很好的选择,而且set提供了判断某个成员是否在一个set集合内的重要接口,这个也是list所不能提供的。
实现方式:
set 的内部实现是一个 value永远为null的HashMap,实际就是经过计算hash的方式来快速排重的,这也是set能提供判断一个成员是否在集合内的缘由。
五、Sorted set
经常使用命令:zadd,zrange,zrem,zcard;
使用场景:
Redis sorted set的使用场景与set相似,区别是set不是自动有序的,而sorted set能够经过用户额外提供一个优先级(score)的参数来为成员排序,而且是插入有序的,即自动排序。当你须要一个有序的而且不重复的集合列表,能够选择sorted set数据结构,好比twitter 的public timeline能够以发表时间做为score来存储,这样获取时就是自动按时间排好序的。
实现方式:
Redis sorted set的内部使用HashMap和跳跃表(SkipList)来保证数据的存储和有序,HashMap里放的是成员到score的映射,而跳跃表里存放的 是全部的成员,排序依据是HashMap里存的score,使用跳跃表的结构能够得到比较高的查找效率,而且在实现上比较简单下载地址 。
(1)经过keepalived实现的高可用方案
切换流程:
1. 当Master挂了后,VIP漂移到Slave;Slave 上keepalived 通知redis 执行:slaveof no one ,开始提供业务
2. 当Master起来后,VIP 地址不变,Master的keepalived 通知redis 执行slaveof slave IP host ,开始做为从同步数据
3. 依次类推
主从同时Down机状况:
1. 非计划性,不作考虑,通常也不会存在这种问题
2.、计划性重启,重启以前经过运维手段SAVE DUMP 主库数据;须要注意顺序:
1. 关闭其中一台机器上全部redis,是得master所有切到另一台机器(多实例部署,单机上既有主又有从的状况);并关闭机器
2. 依次dump主上redis服务
3. 关闭主
4. 启动主,并等待数据load完毕
5. 启动从
6.删除DUMP 文件(避免重启加载慢)
(2)使用Twemproxy 实现集群方案
由twitter开源的c版本proxy,同时支持memcached和redis,目前最新版本为:0.2.4,持续开发中;https://github.com/twitter/twemproxy .twitter用它主要减小前端与缓存服务间网络链接数。
特色:快、轻量级、减小后端Cache Server链接数、易配置、支持ketama、modula、random、经常使用hash 分片算法。
这里使用keepalived实现高可用主备方案,解决proxy单点问题;
优势:
1. 对于客户端而言,redis集群是透明的,客户端简单,遍于动态扩容
2. Proxy为单点、处理一致性hash时,集群节点可用性检测不存在脑裂问题
3. 高性能,CPU密集型,而redis节点集群多CPU资源冗余,可部署在redis节点集群上,不须要额外设备
(1)数据结构:Memcache只支持key value存储方式,Redis支持更多的数据类型,好比Key value,hash,list,set,zset;
(2)多线程:Memcache支持多线程,redis支持单线程;CPU利用方面Memcache优于redis;
(3)持久化:Memcache不支持持久化,Redis支持持久化;
(4)内存利用率:memcache高,redis低(采用压缩的状况下比memcache高);
(5)过时策略:memcache过时后,不删除缓存,会致使下次取数据数据的问题,Redis有专门线程,清除缓存数据;
本地缓存是指应用内部的缓存,标准的分布式系统,通常有多级缓存构成。本地缓存是离应用最近的缓存,通常能够将数据缓存到硬盘或内存。
将数据缓存到硬盘到,读取时从硬盘读取。原理是直接读取本机文件,减小了网络传输消耗,比经过网络读取数据库速度更快。能够应用在对速度要求不是很高,但须要大量缓存存储的场景。
直接将数据存储到本机内存中,经过程序直接维护缓存对象,是访问速度最快的方式。
职责划分:
请求过程:
(1) 浏览器向客户端发起请求,若是CDN有缓存则直接返回;
(2) 若是CDN无缓存,则访问反向代理服务器;
(3) 若是反向代理服务器有缓存则直接返回;
(4) 若是反向代理服务器无缓存或动态请求,则访问应用服务器;
(5) 应用服务器访问本地缓存;若是有缓存,则返回代理服务器,并缓存数据;(动态请求不缓存)
(6) 若是本地缓存无数据,则读取分布式缓存;并返回应用服务器;应用服务器将数据缓存到本地缓存(部分);
(7) 若是分布式缓存无数据,则应用程序读取数据库数据,并放入分布式缓存