在刚刚过去的双十一,又是一个全民狂欢的盛宴,天猫双十一的成交量高达2684亿。无数小伙伴在淘宝、天猫里买买买,今年你又剁手了多少?言归正传,在你疯狂秒杀的时候,有没有发现,今年的购物体验一如既往的好,访问速度快,购物体验那个流畅。我在这里自豪的向你们宣布,咱们阿里云解析DNS又一次完成了今年双十一的安保任务!大促的稳定,离不开DNS团队的默默奉献。
今天咱们来讲说DNS服务稳定保障的重要环节--解析生效速度。对于DNS服务提供商来讲,解析生效速度是一个关键议题,也是衡量系统能力的一个重要指标。当前主流DNS厂商的权威解析服务器大都采用了全球多地域多机房分布式集群部署的方式,以达到更低的解析时延,这同时也对解析管控系统的性能和跨地域跨机房的数据同步能力提出了更大挑战。
对于用户来讲,大量线上服务和异地多活系统的构建是经过DNS来支撑的,更快的解析生效速度意味着更强的系统掌控能力和故障恢复能力,是系统稳定性和容灾能力评估的重要一环。让我从多个维度带您了解快速生效这个热点话题。html
图: DNS解析原理缓存
总的来讲:客户端发起递归DNS请求,递归DNS服务器(大多数状况下为运营商DNS或者公共DNS)若是在TTL时间内有缓存则直接返回解析结果(1→8),不然会经过迭代查询请求多级的DNS权威服务器,并最终将查询结果返回给客户端(1→2→...→7→8),同时缓存本次查询结果。安全
从DNS解析原理中咱们能够看到,递归服务器在TTL时间内会缓存权威域名服务器的解析结果。所以解析生效包含2个环节:首先域名的权威DNS服务器必须生效,而后还须要等各地递归DNS生效。各地递归DNS生效时间能够TTL控制,阿里云云解析做为权威服务器,付费版TTL能够最小设置为1秒。接下来重点介绍云解析怎么保证权威秒级生效。服务器
云解析依托阿里云内部资源,构建了稳定可靠的业务管控系统,为客户提供可视化的域名解析管理平台和OpenApi接口。为了不单用户瞬时超高频调用等异常状况对其余用户形成影响,管控系统采起了租户隔离的策略:各个用户域名的解析调用互不影响,系统总体保证隔离性、公平性、可靠性、可控性。同时针对不一样业务场景,采起了对应的隔离策略,以保证整体稳定。
对于分布式系统架构,CAP 理论是系统设计中的一个重要理论。也就是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错(Partition tolerance),三者不可得兼。BASE理论是对CAP原则中一致性和可用性权衡的结果,BASE是指基本可用(Basically Available)、软状态( Soft State)、最终一致性( Eventual Consistency)。其最核心思想是:即便没法作到强一致性,但每一个应用均可以根据自身业务特色,采用适当的方式来使系统达到最终一致性。阿里云云解析在系统设计上采用此理念:即便某个域名有业务调用洪峰,也能保证该域名最终解析生效。且因为存在租户隔离策略,其余用户不会受到影响。网络
图: CAP理论架构
对帐是检验上下游系统间数据最终一致性的一种保障手段。云解析创建了各个环节的对帐体系,若是有不一致的状况发生,会自动触发报警、自动处理异常,能有效保证解析实时生效以及异常处理自动化。
随着用户的持续增长,系统稳定性和性能挑战不容小觑。另外,因为当前分布式系统、微服务化的流行和大规模部署,一次请求每每须要涉及到多个服务。所以须要一个能够帮助理解系统行为、用于分析性能问题的工具,它可以将跨应用的全部调用链性能信息集中展示,以便发生故障的时候,能够快速定位和解决问题,于此同时,它还能够对每一个具体调用阶段作耗时分析,进而作针对性优化。阿里云云解析创建了全链路监控体系,使系统性能数据化,规范化,针对于监控结果反馈,持续压榨系统极限性能。
此外,管控系统还有不少未讨论的点,好比系统全栈监控、限流、熔断、降级、异地多活高可用、弹性扩容等,在这里再也不赘述。dom
DNS做为网络基础设施,常常会受到DDoS攻击,这会对解析生效时间产生重大影响。DDoS (Distributed Denial of service)攻击经过僵尸网络利用各类服务请求耗尽被攻击网络的系统资源,形成被攻击网络没法处理合法用户的请求。 一般DDoS防护技术有清洗和黑洞两种方式,云解析综合利用两种防护方式,创建了坚固的安全防御壁垒。付费版提供了2种安全防御等级,保障用户在遭受攻击的时候,也有丝滑般流畅体验。分布式
云解析付费版提供了100%的SLA,创建了实时解析生效监控系统。另外,还经过设置服务基线,定时运行端到端测试用例的方式来监测生效时长,保证秒级生效。微服务
常见的测试域名解析生效的方法有四种:阿里云云解析提供的网页版域名检测工具、阿里巴巴DNS本地检测工具、测试命令dig或nslookup、拨测工具。具体可见咱们的官方帮助文档。工具
图: Whois结果示例
图: 域名检测到被劫持示例
更多内容,可参考官方帮助文档。
解析不生效的解决方法有不少,但都是否是万能的,仍是须要具体问题具体分析。排除域名自己问题之外,常见还有如下解决方案:
本文为云栖社区原创内容,未经容许不得转载。