阿里P8架构师谈：分布式缓存的应用场景、选型比较、问题和挑战

时间 2019-11-12

原文原文链接

为何要使用分布式缓存

高并发环境下，例如典型的淘宝双11秒杀，几分钟内上亿的用户涌入淘宝，这个时候若是访问不加拦截，让大量的读写请求涌向数据库，因为磁盘的处理速度与内存显然不在一个量级，服务器立刻就要宕机。从减轻数据库的压力和提升系统响应速度两个角度来考虑，都会在数据库以前加一层缓存，访问压力越大的，在缓存以前就开始CDN拦截图片等访问请求。面试

而且因为最先的单台机器的内存资源以及承载能力有限，若是大量使用本地缓存，也会使相同的数据被不一样的节点存储多份，对内存资源形成较大的浪费，所以，才催生出了分布式缓存。redis

分布式缓存应用场景

页面缓存.用来缓存Web 页面的内容片断,包括HTML、CSS 和图片等;
应用对象缓存.缓存系统做为ORM 框架的二级缓存对外提供服务,目的是减轻数据库的负载压力,加速应用访问;
解决分布式Web部署的session同步问题，状态缓存.缓存包括Session 会话状态及应用横向扩展时的状态数据等,这类数据通常是难以恢复的,对可用性要求较高,多应用于高可用集群。
并行处理.一般涉及大量中间计算结果须要共享;
云计算领域提供分布式缓存服务。

分布式缓存比较：Memcache VS Redis

一、Redis不只仅支持简单的k/v类型的数据，同时还提供list，set，zset，hash等数据结构的存储。而memcache只支持简单数据类型，须要客户端本身处理复杂对象数据库

二、Redis支持数据的持久化，能够将内存中的数据保持在磁盘中，重启的时候能够再次加载进行使用（PS：持久化在rdb、aof）。数组

三、因为Memcache没有持久化机制，所以宕机全部缓存数据失效。Redis配置为持久化，宕机重启后，将自动加载宕机时刻的数据到缓存系统中。具备更好的灾备机制。缓存

四、Memcache可使用Magent在客户端进行一致性hash作分布式。Redis支持在服务器端作分布式（PS:Twemproxy/Codis/Redis-cluster多种分布式实现方式）性能优化

五、Memcached的简单限制就是键（key）和Value的限制。最大键长为250个字符。能够接受的储存数据不能超过1MB（可修改配置文件变大），由于这是典型slab 的最大值，不适合虚拟机使用。而Redis的Key长度支持到512k。服务器

六、Redis使用的是单线程模型，保证了数据按顺序提交。Memcache须要使用cas保证数据一致性。CAS（Check and Set）是一个确保并发一致性的机制，属于“乐观锁”范畴；原理很简单：拿版本号，操做，对比版本号，若是一致就操做，不一致就放弃任何操做网络

cpu利用。因为Redis只使用单核，而Memcached可使用多核，因此平均每个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中，Memcached性能要高于Redis 。session

七、memcache内存管理：使用Slab Allocation。原理至关简单，预先分配一系列大小固定的组，而后根据数据大小选择最合适的块存储。避免了内存碎片。（缺点：不能变长，浪费了必定空间）memcached默认状况下下一个slab的最大值为前一个的1.25倍。数据结构

八、redis内存管理： Redis经过定义一个数组来记录全部的内存分配状况， Redis采用的是包装的malloc/free，相较于Memcached的内存管理方法来讲，要简单不少。因为malloc 首先以链表的方式搜索已管理的内存中可用的空间分配，致使内存碎片比较多。

在此我向你们推荐一个Java高级群：725633148 里面会分享一些资深架构师录制的视频录像：（有Spring，MyBatis，Netty源码分析，高并发、高性能、分布式、微服务架构的原理，JVM性能优化、分布式架构、面试资料）等这些成为架构师必备的知识体系进群立刻免费领取，目前受益良多！

分布式缓存选型总结

其实对于企业选型Memcache、Redis而言，更多仍是应该看业务使用场景（由于Memcache、Redis二者都具备足够高的性能和稳定性）。倘若业务场景须要用到持久化缓存功能、或者支持多种数据结构的缓存功能，那么Redis则是最佳选择。

（PS：Redis集群解决方式也优于Memcache，Memcache在客户端一致性hash的集群解决方案，Redis采用无中心的服务器端集群解决方案）

综上所述：为了让缓存系统可以支持更多的业务场景，选择Redis会更优。

分布式缓存的常见问题和挑战

1.缓存雪崩

缓存雪崩咱们能够简单的理解为：因为原有缓存失效，新缓存未到期间(例如：咱们设置缓存时采用了相同的过时时间，在同一时刻出现大面积的缓存过时)，全部本来应该访问缓存的请求都去查询数据库了，而对数据库CPU和内存形成巨大压力，严重的会形成数据库宕机。从而造成一系列连锁反应，形成整个系统崩溃。

2.缓存穿透

缓存穿透是指用户查询数据，在数据库没有，天然在缓存中也不会有。这样就致使用户查询的时候，在缓存中找不到，每次都要去数据库再查询一遍，而后返回空（至关于进行了两次无用的查询）。这样请求就绕过缓存直接查数据库，这也是常常提的缓存命中率问题。

3.缓存预热

缓存预热这个应该是一个比较常见的概念，相信不少小伙伴都应该能够很容易的理解，缓存预热就是系统上线后，将相关的缓存数据直接加载到缓存系统。这样就能够避免在用户请求的时候，先查询数据库，而后再将数据缓存的问题！用户直接查询事先被预热的缓存数据！

4.缓存更新

除了缓存服务器自带的缓存失效策略以外，咱们还能够根据具体的业务需求进行自定义的缓存淘汰，常见的策略有两种：

（1）定时去清理过时的缓存；

（2）当有用户请求过来时，再判断这个请求所用到的缓存是否过时，过时的话就去底层系统获得新数据并更新缓存。

二者各有优劣，第一种的缺点是维护大量缓存的key是比较麻烦的，第二种的缺点就是每次用户请求过来都要判断缓存失效，逻辑相对比较复杂！具体用哪一种方案，你们能够根据本身的应用场景来权衡。

5.缓存降级

当访问量剧增、服务出现问题（如响应时间慢或不响应）或非核心服务影响到核心流程的性能时，仍然须要保证服务仍是可用的，即便是有损服务。系统能够根据一些关键数据进行自动降级，也能够配置开关实现人工降级。

降级的最终目的是保证核心服务可用，即便是有损的。并且有些服务是没法降级的（如加入购物车、结算）。

在进行降级以前要对系统进行梳理，看看系统是否是能够丢卒保帅；从而梳理出哪些必须誓死保护，哪些可降级；好比能够参考日志级别设置预案：

（1）通常：好比有些服务偶尔由于网络抖动或者服务正在上线而超时，能够自动降级；

（2）警告：有些服务在一段时间内成功率有波动（如在95~100%之间），能够自动降级或人工降级，并发送告警；

（3）错误：好比可用率低于90%，或者数据库链接池被打爆了，或者访问量忽然猛增到系统能承受的最大阀值，此时能够根据状况自动降级或者人工降级；

（4）严重错误：好比由于特殊缘由数据错误了，此时须要紧急人工降级。