一封报警邮件,大量服务节点 redis 响应超时。html
又来,好烦。linux
redis 响应变慢,查看日志,发现大量 TimeoutException。redis
大量TimeoutException,说明当前redis服务节点上已经堆积了大量的链接查询,超出redis服务能力,再次尝试链接的客户端,redis 服务节点直接拒绝,抛出错误。安全
那究竟是什么致使了这种状况的发生呢?服务器
总结起来,咱们能够从如下几方面进行关注:网络
redis服务所在服务器,物理机的资源竞争及网络情况等。同一台服务器上的服务必然面对着服务资源的竞争,CPU,内存,固存等。架构
redis属于CPU密集型服务,对CPU资源依赖尤其紧密,当所在服务器存在其它CPU密集型应用时,必然会影响redis的服务能力,尤为是在其它服务对CPU资源消耗不稳定的状况下。并发
所以,在实际规划redis这种基础性数据服务时应该注意一下几点:tcp
1)通常不要和其它类型的服务进行混部。高并发
2)同类型的redis服务,也应该针对所服务的不一样上层应用进行资源隔离。
说到CPU关联性,可能有人会问是否应该对redis服务进行CPU绑定,以下降由CPU上下文切换带来的性能消耗及关联影响?
简单来讲,是能够的,这种优化能够针对任何CPU亲和性要求比较高的服务,可是在此处,有一点咱们也应该特别注意:咱们在 关于redis内存分析,内存优化 中介绍内存时,曾经提到过子进程内存消耗,也就是redis持久化时会fork出子进程进行AOF/RDB持久化任务。对于开启了持久化配置的redis服务(通常状况下都会开启),假如咱们作了CPU亲和性处理,那么redis fork出的子进程则会和父进程共享同一个CPU资源,咱们知道,redis持久化进程是一个很是耗资源的过程,这种自竞争必然会引起redis服务的极大不稳定。
关于redis内存分析,内存优化 开篇就讲过,redis最重要的东西,内存。
内存稳定性是redis提供稳定,低延迟服务的最基本的要求。
然而,咱们也知道操做系统有一个 swap 的东西,也就将内存交换到硬盘。假如发生了redis内存被交换到硬盘的情景发生,那么必然,redis服务能力会骤然降低。
swap发现及避免:
1)info memory:
关于redis内存分析,内存优化 中咱们也讲过,swap这种情景,此时,查看redis的内存信息,能够观察到碎片率会小于1。这也能够做为监控redis服务稳定性的一个指标。
2)经过redis进程查看。
首先经过 info server 获取进程id:
查看 redis 进程 swap 状况:cat /proc/1686/smaps
肯定交换量都为0KB或者4KB。
3)redis服务maxmemory配置。
关于redis内存分析,内存优化 中咱们提到过,对redis服务必要的内存上限配置,这是内存隔离的一种必要。须要肯定的是全部redis实例的分配内存总额小于总的可用物理内存。
4)系统优化:
另外,在最初的基础服务操做系统安装部署时,也须要作一些必要的前置优化,如关闭swap或配置系统尽可能避免使用。
网络问题,是一个广泛的影响因素。
1)网络资源耗尽
简单来讲,就是带宽不够了,整个属于基础资源架构的问题了,对网络资源的预估不足,跨机房,异地部署等都会成为诱因。
2)链接数用完了
一个客户端链接对应着一个TCP链接,一个TCP链接在LINUX系统内对应着一个文件句柄,系统级别链接句柄用完了,也就没法再进行链接了。
查看当前系统限制:ulimit -n
设置:ulimit -n {num}
3)端口TCP backlog队列满了
linux系统对于每一个端口使用backlog保存每个TCP链接。
redis配置:tcp_backlog 默认511
高并发情境下,能够适当调整此配置,但须要注意的是,同时要调整系统相关设置。
系统修改命令:echo {num}>/proc/sys/net/core/somaxconn
查看由于队列溢出致使的链接绝句:netstat -s | grep overflowed
4)网络延迟
网络质量问题,可使用 redis-cli 进行网络情况的测试:
延迟测试:redis-cli -h {host} -p {port} --latency
采样延迟测试:redis-cli -h {host} -p {port} --latency-history 默认15s一次
图形线上测试结果:redis-cli -h {host} -p {port} --latency-dist
4)网卡软中断
单个网卡队列只能使用单个CPU资源问题。
若是你的查询老是慢查询,那么必然你的使用存在不合理。
1)你的key规划是否合理
太长或过短都是不建议的,key须要设置的简短而有意义。
2)值类型选择是否合理。
hash仍是string,set仍是zset,避免大对象存储。
线上能够经过scan命令进行大对象发现治理。
3)是否可以批查询
get 仍是 mget;是否应该使用pipeline。
4)禁止线上大数据量操做
查看redis服务运行情况:redis-cli -h {host} -p {port} --stat
keys:当前key总数;mem:内存使用;clients:当前链接client数;blocked:阻塞数;requests:累计请求数;connections:累计链接数
1)fork子进程影响
redis 进行持久化操做须要fork出子进程。fork子进程自己若是时间过长,则会产生必定的影响。
查看命令最近一次fork耗时:info stats
单位微妙,确保不要超过1s。
2)AOF刷盘阻塞
AOF持久化开启,后台每秒进行AOF文件刷盘操做,系统fsync操做将AOF文件同步到硬盘,若是主线程发现距离上一次成功fsync超过2s,则会阻塞后台线程等待fsync完成以保障数据安全性。
3)THP问题
关于redis内存分析,内存优化 中咱们讲过透明大页问题,linux系统的写时复制机制会使得每次写操做引发的页复制由4KB提高至2M从而致使写慢查询。若是慢查询堆积必然致使后续链接问题。