腾讯云推出云原生etcd服务

背景

腾讯云容器服务TKE从2016年提供服务至今,已服务成千上万企业构建其容器化平台, 一方面,腾讯云容器团队在提供容器服务时积累并完善了一套万级K8s集群的etcd管理平台,用于支撑腾讯云容器产品稳定运行,该平台同时也支撑了腾讯内部业务如云监控,api网关,欢乐游戏等,另外一方面,咱们积极参与etcd社区,将咱们大规模实践过程当中遇到的问题和解决方案,反馈和贡献给社区,是社区2020年最活跃的贡献团队之一。后端

容器团队在屡次客户访谈中了解到,不少客户不想本身运维etcd,指望可以使用腾讯云容器服务内部etcd平台的能力和经验。 所以咱们推出了腾讯云原生etcd服务。api

腾讯云原生etcd服务介绍

etcd是什么

etcd是一个分布式、高可靠的键值存储,能够容忍集群中部分节点故障,只要有一半以上节点存活便可对外提供服务。主要用于元数据存储,服务发现,分布式选举等场景,如Kubernetes,CoreDNS等。基于etcd提供的Watch机制,能够很方便的实现发布订阅等功能。
安全

为何要推出etcd服务

容器团队在拜访客户时了解到,不少客户因为对etcd了解程度不够,致使在实际使用和运维过程当中出现过不少问题。 例若有些客户使用了v3的api写数据却使用了v2的api进行数据备份,还有些客户由于集群恢复时参数指定的有问题致使集群没法正常重建,从而影响业务恢复,更有甚者,由于自动压缩参数配置的有问题而频繁的使用defrag进行碎片整理,还有不少业务由于使用姿式的问题致使etcd性能严重降低,频繁leader选举,间接形成业务不可用,数据丢失等。性能优化

此外,用户自建etcd每每还须要本身再维护一套etcd监控告警系统和备份恢复机制,增长了运维负担,自建etcd集群容易疏忽监控和备份机制,每每出了问题以后才后知后觉。虽然目前业界已经有了不少基于K8s的etcd管理方案,必定程度上减轻了运维负担,如etcd-operator(目前已再也不维护),基于helm部署的etcd等,但这些项目在可用性和易用性上并无保障,出了问题以后每每更难恢复。app

腾讯云容器团队目前线上运维了上万套K8s集群,后端使用了上千套etcd集群做为支撑存储,在保障etcd稳定运营的过程当中,咱们遇到过不少问题,也所以积累了大量的实践经验,并孵化出了一套自动化etcd管理平台:包含完善的监控告警,备份恢复和容灾机制,强大的巡检能力可以帮助咱们进行热点数据分析,混沌工程帮助咱们主动发现一些隐藏的bug,可控的变动和升级机制可以让咱们针对问题版本进行快速升级。运维

目前咱们已经在腾讯内部为多个业务团队提供etcd服务,保障业务快速上线和稳定运营。 为服务更多客户,咱们推出了云原生etcd产品服务,将咱们内部的能力提供出来,衷心指望可以帮您解决etcd的运维负担。分布式

腾讯云原生etcd服务介绍

腾讯云容器团队提供的云原生etcd服务能够帮助您:性能

  • 一键部署经腾讯内部大规模验证的高可靠高性能etcd集群,支持跨可用区容灾能力、专业团队为您提供最优化的性能配置。
  • 集成云原生监控能力,提供完善的监控和告警机制
  • 提供etcd平常运维管理能力:测试

    • 备份恢复:支持自动备份和手动备份、灾难状况能够选择从备份恢复集群
    • 配置升降、集群扩缩容:借助腾讯云上计算存储资源,您能够方便快速调整etcd集群配置和节点个数
    • etcd版本升级:帮助您快速安全地跟进社区bugfix版本更新,版本上线前会通过内部大规模场景验证,避免因etcd自身bug形成隐患。
一键部署etcd集群

集成云原生监控

除原生指标外,集成云原生监控还同时支持扩展的巡检指标,如数据一致性巡检,集群健康探测,业务写QPS巡检等。优化

etcd集群管理

腾讯云原生etcd服务产品优点

易用使用的托管部署

您能够在腾讯云容器服务控制台一键建立高可靠,高性能etcd集群, 便可在几分钟内启动一个可投入生产的etcd集群。底层资源基于K8s部署,经过operator进行管理,支持将节点打散到不一样的可用区,在3个可用区的状况下,单可用区挂掉不影响集群正常服务,节点挂掉以后能够快速自愈,最大程度下降不可用时间。数据持久化存储于腾讯云云硬盘,具有多副本的容灾能力。您不须要过多关注etcd的各项复杂参数,咱们会根据您的集群配置,自动适配到合适的参数配置。

安全的数据访问

支持开启https双向认证及鉴权,数据访问更加安全。支持经过安全组来限制访问来源。

完善的数据备份/恢复

您能够在控制台建立集群时或集群建立完成后设置etcd的备份策略,支持定时的将数据备份到腾讯云对象存储COS服务,您也能够手动来触发备份。在集群数据异常须要回滚的状况下,能够经过COS备份来恢复集群。

全面的监控告警

无缝对接腾讯云原生监控服务(托管prometheus服务),默认提供您须要关注的各项性能指标和可用性指标,您也能够自行聚合须要的监控指标和面板,帮助您更好的监控etcd集群状态。

热点数据分析

除默认的监控能力外,咱们额外提供了热点数据分析和慢查询分析能力,能够帮助您更好的分析异常请求来源,及时发现问题并进行优化。

完善的保障机制

云原生etcd服务的高可靠性让您能够放心将数据放在云端,无需担忧数据丢失,也简化了传统运维工做中为保障数据高可靠带来的额外工做量和额外的 IT 投入成本。

可靠的版本验证和更新机制

版本上线前会通过完善的内部测试和大规模验证,经过混沌工程进行故障演练,保证版本的稳定性。

全流程的运维服务

您无需关心云原生etcd服务的安装、部署、版本更新及故障处理,容器团队为您免除后顾之忧。

内测邀请

咱们诚挚邀请您参与腾讯云原生etcd服务的内测, 您能够经过如下连接提交内测申请:https://cloud.tencent.com/app...

附录:

《三年之久的 etcd3 数据不一致 bug 分析》

《万级K8s集群背后etcd稳定性及性能优化实践》

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!
相关文章
相关标签/搜索