Redis内核原理及雪崩和穿透企业级架构深刻剖析4-综合组件环境实战

时间 2019-11-22

标签 redis 内核原理雪崩穿透企业架构深刻剖析综合组件环境实战栏目 Redis 繁體版

原文原文链接

本套技术专栏是做者（秦凯新）平时工做的总结和升华，经过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。QQ邮箱地址：1120746959@qq.com，若有任何学术交流，可随时联系。redis

1 缓存雪崩的解决方案

事前：redis高可用，主从+哨兵，redis cluster，避免全盘崩溃
事中：本地ehcache缓存 + hystrix限流&降级，避免MySQL被打死
过后：redis持久化，快速恢复缓存数据

2 cache aside pattern

读的时候，先读缓存，缓存没有的话，那么就读数据库，而后取出数据后放入缓存，同时返回响应数据库
更新的时候，先删除缓存，而后再更新数据库缓存

3 缓存不一致问题

只有在对一个数据在并发的进行读写的时候，才可能会出现这种问题架构

其实若是说你的并发量很低的话，特别是读并发很低，天天访问量就1万次，那么不多的状况下，会出现刚才描述的那种不一致的场景并发

可是问题是，若是天天的是上亿的流量，每秒并发读是几万，每秒只要有数据更新的请求，就可能会出现上述的数据库+缓存不一致的状况异步

3.1 缓存不一致问题1

问题：先修改数据库，再删除缓存，若是删除缓存失败了，那么会致使数据库中是新数据，缓存中是旧数据，数据出现不一致jvm
解决思路ide

先删除缓存，再修改数据库，若是删除缓存成功了，若是修改数据库失败了，那么数据库中是旧数据，缓存中是空的，那么数据不会不一致测试

由于读的时候缓存没有，则读数据库中旧数据，而后更新到缓存中大数据

3.2 缓存不一致问题2

数据发生了变动，先删除了缓存，而后要去修改数据库，此时还没修改

一个请求过来，去读缓存，发现缓存空了，去查询数据库，查到了修改前的旧数据，放到了缓存中数据变动的程序完成了数据库的修改，致使此时数据库和缓存不一致。

4 数据库与缓存更新与读取操做进行异步串行化

异步串行化

更新数据的时候，根据数据的惟一标识，将操做路由以后，发送到一个jvm内部的队列中，读取数据的时候，若是发现数据不在缓存中，那么将从新读取数据+更新缓存的操做，根据惟一标识路由以后，也发送同一个jvm内部的队列中。一个队列对应一个工做线程，每一个工做线程串行拿到对应的操做，而后一条一条的执行。

这样的话，一个数据变动的操做，先执行，删除缓存，而后再去更新数据库，可是还没完成更新，此时若是一个读请求过来，读到了空的缓存，那么能够先将缓存更新的请求发送到队列中，此时会在队列中积压，而后同步等待缓存更新完成

这里有一个优化点，一个队列中，其实多个更新缓存请求串在一块儿是没意义的，所以能够作过滤，若是发现队列中已经有一个更新缓存的请求了，那么就不用再放个更新请求操做进去了，直接等待前面的更新操做请求完成便可

待那个队列对应的工做线程完成了上一个操做的数据库的修改以后，才会去执行下一个操做，也就是缓存更新的操做，此时会从数据库中读取最新的值，而后写入缓存中

若是请求还在等待时间范围内，不断轮询发现能够取到值了，那么就直接返回; 若是请求等待的时间超过必定时长，那么这一次直接从数据库中读取当前的旧值
读请求长时阻塞

因为读请求进行了很是轻度的异步化，因此必定要注意读超时的问题，每一个读请求必须在超时时间范围内返回，该解决方案，最大的风险点在于说，可能数据更新很频繁，致使队列中积压了大量更新操做在里面，而后读请求会发生大量的超时，最后致使大量的请求直接走数据库，务必经过一些模拟真实的测试，看看更新数据的频繁是怎样的

另一点，由于一个队列中，可能会积压针对多个数据项的更新操做，所以须要根据本身的业务状况进行测试，可能须要部署多个服务，每一个服务分摊一些数据的更新操做

若是一个内存队列里竟然会挤压100个商品的库存修改操做，每一个库存修改操做要耗费10ms区完成，那么最后一个商品的读请求，可能等待10 * 100 = 1000ms = 1s后，才能获得数据

这个时候就致使读请求的长时阻塞

必定要作根据实际业务系统的运行状况，去进行一些压力测试，和模拟线上环境，去看看最繁忙的时候，内存队列可能会挤压多少更新操做，可能会致使最后一个更新操做对应的读请求，会hang多少时间，若是读请求在200ms返回，若是你计算事后，哪怕是最繁忙的时候，积压10个更新操做，最多等待200ms，那还能够的

若是一个内存队列可能积压的更新操做特别多，那么你就要加机器，让每一个机器上部署的服务实例处理更少的数据，那么每一个内存队列中积压的更新操做就会越少

5 redis的并发竞争

就是多客户端同时并发写一个key，可能原本应该先到的数据后到了，致使数据版本错了。或者是多客户端同时获取一个key，修改值以后再写回去，只要顺序错了，数据就错了。
redis本身就有自然解决这个问题的CAS类的乐观锁方案

6 生产环境中的redis部署方案

6.1 redis部署须要考虑的问题

redis是主从架构？集群架构？用了哪一种集群方案？有没有作高可用保证？有没有开启持久化机制确保能够进行数据恢复？线上redis给几个G的内存？设置了哪些参数？压测后大家redis集群承载多少QPS？

6.2 redis部署线上思路

采用redis cluster 模式，10台机器，5台机器部署了redis主实例，另外5台机器部署了redis的从实例，每一个主实例挂了一个从实例，5个节点对外提供读写服务，每一个节点的读写高峰qps可能能够达到每秒5万，5台机器最可能是25万读写请求/s。
机器是什么配置？32G内存+8核CPU+1T磁盘，可是分配给redis进程的是10g内存，通常线上生产环境，redis的内存尽可能不要超过10g，超过10g可能会有问题。
由于每一个主实例都挂了一个从实例，因此是高可用的，任何一个主实例宕机，都会自动故障迁移，redis从实例会自动变成主实例继续提供读写服务

你往内存里写的是什么数据？每条数据的大小是多少？假如商品数据每条是10kb。100条数据是1mb，10万条数据是1g。常驻内存的是200万条商品数据，占用内存是20g，仅仅不到总内存的50%。

7 总结

结合大数据在咱们工业大数据平台的实践，总结成一篇实践指南，方便之后查阅反思，后续我会根据本篇博客进行代码技术实践实现。

凯新云技术社区