随着腾讯自研上云及公有云用户的迅速增加,一方面,腾讯云容器服务TKE服务数量和核数大幅增加, 另外一方面咱们提供的容器服务类型(TKE托管及独立集群、EKS弹性集群、edge边缘计算集群、mesh服务网格、serverless knative)也愈来愈丰富。各种容器服务类型背后的核心都是K8s,K8s核心的存储etcd又统一由咱们基于K8s构建的etcd平台进行管理。基于它咱们目前管理了千级etcd集群,背后支撑了万级K8s集群。git
在万级K8s集群规模下的咱们如何高效保障etcd集群的稳定性? github
etcd集群的稳定性风险又来自哪里?golang
咱们经过基于业务场景、历史遗留问题、现网运营经验等进行稳定性风险模型分析,风险主要来自旧TKE etcd架构设计不合理、etcd稳定性、etcd性能部分场景没法知足业务、测试用例覆盖不足、变动管理不严谨、监控是否全面覆盖、隐患点是否能自动巡检发现、极端灾难故障数据安全是否能保障。web
前面所描述的etcd平台已经从架构设计上、变动管理上、监控及巡检、数据迁移、备份几个方面程度解决了咱们管理的各种容器服务的etcd可扩展性、可运维性、可观测性以及数据安全性,所以本文将重点描述咱们在万级K8s场景下面临的etcd内核稳定性及性能挑战,好比:算法
本文将简易描述咱们是如何发现、分析、复现、解决以上问题及挑战,以及从以上过程当中咱们得到了哪些经验及教训,并将之应用到咱们的各种容器服务存储稳定性保障中。数据库
同时,咱们将解决方案所有贡献、回馈给etcd开源社区, 截止目前咱们贡献的30+ pr已所有合并到社区。腾讯云TKE etcd团队是etcd社区2020年上半年最活跃的贡献团队之一, 为etcd的发展贡献咱们的一点力量, 在这过程当中特别感谢社区AWS、Google、Ali等maintainer的支持与帮助。后端
从GitLab误删主库丢失部分数据到GitHub数据不一致致使中断24小时,再到号称"不沉航母"的AWS S3故障数小时等,无一例外都是存储服务。稳定性对于一个存储服务、乃至一个公司的口碑而言相当重要,它决定着一个产品生与死。稳定性优化案例咱们将从数据不一致的严重性、两个etcd数据不一致的bug、lease内存泄露、mvcc 死锁、wal crash方面阐述,咱们是如何发现、分析、复现、解决以上case,并分享咱们从每一个case中的得到的收获和反思,从中汲取经验,防患于未然。api
谈到数据不一致致使的大故障,就不得不详细提下GitHub在18年一次因网络设备的例行维护工做致使的美国东海岸网络中心与东海岸主要数据中心之间的链接断开。虽然网络的连通性在43秒内得以恢复,可是短暂的中断引起了一系列事件,最终致使GitHub 24小时11分钟的服务降级,部分功能不可用。数组
GitHub使用了大量的MySQL集群存储GitHub的meta data,如issue、pr、page等等,同时作了东西海岸跨城级别的容灾。故障核心缘由是网络异常时GitHub的MySQL仲裁服务Orchestrator进行了故障转移,将写入数据定向到美国西海岸的MySQL集群(故障前primary在东海岸),然而美国东海岸的MySQL包含一小段写入,还没有复制到美国西海岸集群,同时故障转移后因为两个数据中心的集群如今都包含另外一个数据中心中不存在的写入,所以又没法安全地将主数据库故障转移回美国东海岸。安全
最终, 为了保证保证用户数据不丢失,GitHub不得不以24小时的服务降级为代价来修复数据一致性。
数据不一致的故障严重性不言而喻,然而etcd是基于raft协议实现的分布式高可靠存储系统,咱们也并未作跨城容灾,按理数据不一致这种看起来高大上bug咱们是很难遇到的。然而梦想是美好的,现实是残酷的,咱们不只遇到了难以想象的数据不一致bug, 还一踩就是两个,一个是重启etcd有较低的几率触发,一个是升级etcd版本时若是开启了鉴权,在K8s场景下较大几率触发。在详细讨论这两个bug前,咱们先看看在K8s场景下etcd数据不一致会致使哪些问题呢?
首先第一个不一致bug是重启etcd过程当中遇到的,人工尝试复现屡次皆失败,分析、定位、复现、解决这个bug之路几经波折,过程颇有趣并充满挑战,最终经过我对关键点增长debug日志,编写chaos monkey模拟各类异常场景、边界条件,实现复现成功。最后的真凶居然是一个受权接口在重启后重放致使鉴权版本号不一致,而后放大致使多版本数据库不一致, 部分节点没法写入新数据, 影响全部v3版本的3年之久bug。
随后咱们提交若干个相关pr到社区, 并所有合并了, 最新的etcd v3.4.9[1],v3.3.22[2]已修复此问题, 同时google的jingyih也已经提K8s issue和pr[3]将K8s 1.19的etcd client及server版本升级到最新的v3.4.9。此bug详细可参考超凡同窗写的文章三年之久的 etcd3 数据不一致 bug 分析。
第二个不一致bug是在升级etcd过程当中遇到的,因etcd缺乏关键的错误日志,故障现场有效信息很少,定位较困难,只能经过分析代码和复现解决。然而人工尝试复现屡次皆失败,因而咱们经过chaos monkey模拟client行为场景,将测试环境全部K8s集群的etcd分配请求调度到咱们复现集群,以及对比3.2与3.3版本差别,在可疑点如lease和txn模块增长大量的关键日志,并对etcd apply request失败场景打印错误日志。
经过以上措施,咱们比较快就复现成功了, 最终经过代码和日志发现是3.2版本与3.3版本在revoke lease权限上出现了差别,3.2无权限,3.3须要写权限。当lease过时的时候,若是leader是3.2,那么请求在3.3节点就会因无权限致使失败,进而致使key数量不一致,mvcc版本号不一致,致使txn事务部分场景执行失败等。最新的3.2分支也已合并咱们提交的修复方案,同时咱们增长了etcd核心过程失败的错误日志以提升数据不一致问题定位效率,完善了升级文档,详细说明了lease会在此场景下引发数据不一致性,避免你们再次采坑。
从这两个数据不一致bug中咱们得到了如下收获和最佳实践:
众所周知etcd是golang写的,而golang自带垃圾回收机制也会内存泄露吗?首先咱们得搞清楚golang垃圾回收的原理,它是经过后台运行一个守护线程,监控各个对象的状态,识别而且丢弃再也不使用的对象来释放和重用资源,若你迟迟未释放对象,golang垃圾回收不是万能的,不泄露才怪。好比如下场景会致使内存泄露:
接下来看看咱们遇到的这个etcd内存泄露属于哪一种状况呢?事情起源于3月末的一个周末起床后收到现网3.4集群大量内存超过安全阈值告警,马上排查了下发现如下现象:
此内存泄露bug属于内存数据结构管理不周致使的,问题修复后,etcd社区当即发布了新的版本(v3.4.6+)以及K8s都当即进行了etcd版本更新。
从这个内存泄露bug中咱们得到了如下收获和最佳实践:
死锁是指两个或两个以上的goroutine的执行过程当中,因为竞争资源相互等待(通常是锁)或因为彼此通讯(chan引发)而形成的一种程序卡死现象,没法对外提供服务。deadlock问题由于每每是在并发状态下资源竞争致使的, 通常比较难定位和复现, 死锁的性质决定着咱们必须保留好分析现场,不然分析、复现及其困难。
那么咱们是如何发现解决这个deadlock bug呢?问题起源于内部团队在压测etcd集群时,发现一个节点忽然故障了,并且一直没法恢复,没法正常获取key数等信息。收到反馈后,我经过分析卡住的etcd进程和查看监控,获得如下结论:
这个bug也隐藏了好久,影响全部etcd3版本,在集群中写入量较大,某落后的较多的节点执行了快照重建,同时此时又偏偏在作历史版本压缩,那就会触发。我提交的修复PR目前也已经合并到3.3和3.4分支中,新的版本已经发布(v3.3.21+/v3.4.8+)。
从这个死锁bug中咱们得到了如下收获和最佳实践:
panic是指出现严重运行时和业务逻辑错误,致使整个进程退出。panic对于咱们而言并不陌生,咱们在现网遇到过几回,最先遭遇的不稳定性因素就是集群运行过程当中panic了。
虽然说咱们3节点的etcd集群是能够容忍一个节点故障,可是crash瞬间对用户依然有影响,甚至出现集群拨测链接失败。
咱们遇到的第一个crash bug,是发现集群连接数较多的时候有必定的几率出现crash, 而后根据堆栈查看社区已有人报grpc crash(issue)[4], 缘由是etcd依赖的组件grpc-go出现了grpc crash(pr)[5],而最近咱们遇到的crash bug[6]是v3.4.8/v3.3.21新版本发布引发的,这个版本跟咱们有很大关系,咱们贡献了3个PR到这个版本,占了一大半以上, 那么这个crash bug是如何产生以及复现呢?会不会是咱们本身的锅呢?
虽然这个bug是社区用户反馈的,但从这个crash bug中咱们得到了如下收获和最佳实践:
etcd面对一些大数据量的查询(expensive read)和写入操做时(expensive write),如全key遍历(full keyspace fetch)、大量event查询, list all Pod, configmap写入等会消耗大量的cpu、内存、带宽资源,极其容易致使过载,乃至雪崩。
然而,etcd目前只有一个极其简单的限速保护,当etcd的commited index大于applied index的阈值大于5000时,会拒绝一切请求,返回Too Many Request,其缺陷很明显,没法精确的对expensive read/write进行限速,没法有效防止集群过载不可用。
为了解决以上挑战,避免集群过载目前咱们经过如下方案来保障集群稳定性:
多维度的集群告警在咱们的etcd稳定性保障中发挥了重要做用,屡次帮助咱们发现用户和咱们自身集群组件问题。用户问题如内部某K8s平台以前出现bug, 写入大量的集群CRD资源和client读写CRD QPS明显偏高。咱们自身组件问题如某旧日志组件,当集群规模增大后,因日志组件不合理的频繁调用list Pod,致使etcd集群流量高达3Gbps, 同时apiserver自己也出现5XX错误。
虽然经过以上措施,咱们能极大的减小因expensive read致使的稳定性问题,然而从线上实践效果看,目前咱们仍然比较依赖集群告警帮助咱们定位一些异常client调用行为,没法自动化的对异常client的进行精准智能限速,。etcd层因没法区分是哪一个client调用,若是在etcd侧限速会误杀正常client的请求, 所以依赖apiserver精细化的限速功能实现。社区目前已在1.18中引入了一个API Priority and Fairness[7],目前是alpha版本,期待此特性早日稳定。
etcd读写性能决定着咱们能支撑多大规模的集群、多少client并发调用,启动耗时决定着咱们当重启一个节点或因落后leader太多,收到leader的快照重建时,它从新提供服务须要多久?性能优化案例剖析咱们将从启动耗时减小一半、密码鉴权性能提高12倍、查询key数量性能提高3倍等来简单介绍下如何对etcd进行性能优化。
当db size达到4g时,key数量百万级别时,发现重启一个集群耗时居然高达5分钟, key数量查询也是超时,调整超时时间后,发现高达21秒,内存暴涨6G。同时查询只返回有限的记录数的场景(如业务使用etcd grpc-proxy来减小watch数,etcd grpc proxy在默认建立watch的时候,会发起对watch路径的一次limit读查询),依然耗时很高且有巨大的内存开销。因而周末空闲的时候我对这几个问题进行了深刻调查分析,启动耗时到底花在了哪里?是否有优化空间?查询key数量为什么如何耗时,内存开销如此之大?
带着这些问题对源码进行了深刻分析和定位,首先来看查询key数和查询只返回指定记录数的耗时和内存开销极大的问题,分析结论以下:
再看启动耗时问题太高的问题,经过对启动耗时各阶段增长日志,获得如下结论:
某内部业务服务一直跑的好好的,某天client略微增多后,忽然现网etcd集群出现大量超时,各类折腾,切换云盘类型、切换部署环境、调整参数都不发挥做用,收到求助后,索要metrics和日志后,通过一番排查后,获得如下结论:
本文简单描述了咱们在管理万级K8s集群和其余业务过程当中遇到的etcd稳定性和性能挑战,以及咱们是如何定位、分析、复现、解决这些挑战,并将解决方案贡献给社区。
同时,详细描述了咱们从这些挑战中收获了哪些宝贵的经验和教训,并将之应用到后续的etcd稳定性保障中,以支持更大规模的单集群和总集群数。
最后咱们面对万级K8s集群数, 千级的etcd集群数, 10几个版本分布,其中很多低版本包含重要的潜在可能触发的严重bug, 咱们还须要投入大量工做不断优化咱们的etcd平台,使其更智能、变动更加高效、安全、可控(如支持自动化、可控的集群升级等), 同时数据安全也相当重要,目前腾讯云TKE托管集群咱们已经全面备份,独立集群的用户后续将引导经过应用市场的etcd备份插件开启定时备份到腾讯云对象存储COS上。
将来咱们将继续紧密融入etcd的社区,为etcd社区的发展贡献咱们的力量,与社区一块提高etcd的各个功能。
[1]v3.4.9: https://github.com/etcd-io/et...
[2]v3.3.22: https://github.com/etcd-io/et...
[3]K8s issue和pr: https://github.com/kubernetes...
[4]grpc crash(issue): https://github.com/etcd-io/et...
[5]grpc crash(pr): https://github.com/grpc/grpc-...
[6]crash bug : https://github.com/etcd-io/et...
[7]API Priority and Fairness: https://github.com/kubernetes...
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!
![]()