忽然收到客户报告,开发人员登陆TFS系统时,出现登陆异常现象。即便输入了正确的帐户和密码,TFS系统任然提示从新登陆的页面,致使用户没法打开TFS系统。数据库
即便登陆成功,在修改代码或者修改工做项的工程中,系统时而提示“管理员取消了操做”。服务器
现象以下图:微信
1. 接到报告后,咱们马上在多个客户端上验证,重现了用户反馈的问题,并确认问题出在TFS系统服务端,而不是个别开发人员计算机的问题。网络
2. 根据问题现象,迅速排查TFS服务器中的日志和配置信息,发现DNS正常,数据库和应用服务器之间的访问都正常,使用数据库客户端访问单台数据库,均可以正常访问。可是出现一些奇怪的现象:运维
TFS服务器系统的认证方式是经过AD服务器实现的,没有AD服务器提供的基础认证服务器,系统是不可能正常运行的。测试
由此,咱们判断TFS系统异常的缘由是因为不能访问域控致使的。结合当天运维组调整生产区和测试区的防火墙策略,初步判定是防火墙的策略致使了TFS系统和域控之间的网络隔离。日志
3. 咱们迅速联系了运维组负责人,并将相关技术人员拉入到微信群,协同分析缘由,寻求迅速解决问题的方案。blog
通过运维组相关人员分析确认,当日变动的防火墙策略阻挡了TFS服务器和域控之间的135端口通讯。开发
运维人员当即取消TFS系统和域控之间的防火墙策略。防火墙策略生效后,能够看到TFS系统能够正常访问域控服务器,TFS服务器也马上恢复正常,服务器不须要作任何重启操做。get
通过验证,TFS系统的基本功能(例如登陆、修改工做项、需改代码)都恢复正常。
这是一次比较典型的TFS服务器故障处理过程,经过总结分析本次故障的缘由和处理过程,相似问题应该注意如下几点:
1. 防火墙策略调整前,须要提早(至少2-3日)通知TFS系统的负责人,以便提取作好相关的调研和预备方案
2. TFS系统依赖的系统(例如域控服务器、邮箱服务器、DNS服务器、需求管理平台等)作相关调整或升级前,须要提早通知TFS系统负责人,以便提早作好相关准备
3. 相关配置调整后、相关系统调整升级后,须要通知TFS负责人验证,是否对TFS系统产生了直接影响
微软DevOps MVP 张洪君 http://www.cnblogs.com/danzhang
--End--