对公司网站DNS解析异常的排查与处理

  • 这周可谓是屋漏连夜雨,先是nfs挂载出现问题,紧接着住处的厕所堵了,而后又是今天的域名解析异常致使服务访问返回404。
    咱们的域名是解析到两个IP,分别是电信跟网通。
    异常情景:
    用户打开页面登陆后图片上传跟显示出现异常,http返回404.
    排查问题:
    一、先让用户将异常的url发送过来,本身登陆查看。发现状况以下:
    对公司网站DNS解析异常的排查与处理
    经过google的开发者工具再次刷新发现全部的异常的图片都返回404,看了url是域名:8080/路径,复制
    对公司网站DNS解析异常的排查与处理
    复制url在新窗口打开发现404,以后将域名替换为ip,图片显示正常。换了第二个ip,图片显示正常
    二、在本地ping域名发现以下:
    对公司网站DNS解析异常的排查与处理
    域名解析不稳定
    由上面的分析,问题基本就是在域名解析上。

问题分析:
在这件事发生前联通的IP曾断了10-20分钟,当时业务有部分异常,本身就先登陆DNS将联通的解析给暂停了,以后业务正常,在下午2点左右再度异常。
期间曾询问机房人员网络异常的事,给的答复是网络波动。这...这结果也只能认了。

DNS的设置里面有TTL缓存生存时间,当到达设定的TTL时长后DNS会再次今后处得到最新的域名解析值,因为咱们设置的是3600s,一小时。在停了联通的线路解析后1小时后才会从新生效,所以会有域名解析出现异常。
登陆咱们的DNS

对公司网站DNS解析异常的排查与处理

咱们本身由于IP变更小,基本TTL都设置为1小时,这样会使得解析快点,但它的弊端就是当IP异常时它恢复时间会很长通常是1小时,最短可设1分钟,但1分钟又过短使得解析会很慢。
通过此次的事故,考虑了下设置为600,即10分钟比较合适。目前业务量并不大,网络波动出现后一个IP有影响也只是分钟级别,目前公司还能够接受。

总结:
一、这主要是本身对IP的连通性没有监控到位,使得IP异常本身未及时发现;
二、域名解析的IP最好不是直接对应的业务IP,而是在前端加一层负载均衡这样后端一个IP异常,也不影响解析结果。不过加了一层负载均衡后会增长预算,并且引入负载均衡后它的单点故障也须要考虑,这又增长了费用。但若企业愿意花钱买稳定,这仍是值得的。

此次主要缘由在于本身监控及报警未作到位,以至故障发生这么久才知道。
相关文章
相关标签/搜索