在超过千人使用的TFS生产环境中,天天周期性出现没法正常查看工做项白板、没法签入代码、没法进行自动化构建、没法进行报表数据的查看等状况,真是一个让人焦灼的问题。做为TFS平台支持和运维的团队,也想进了办法和方案尝试解决和减少这个问题产生的影响,通过几个月的尝试,最终仍是协同微软产品技术支持中心的人,一块儿定位和尝试解决问题,最后把问题给解决了。数据库
下面记录一些整个问题出现和解决的过程。浏览器
1, 出现问题的症状微信
问题症状大体有两大类:第一类为天天的固定时间段,在用WebPortal访问TFS程序时,浏览器一直处于加载的状态,光标或内容区的加载图片在没完没了的转圈,转那么几分钟,谁都受不了,研发的群里就炸了锅了,TFS挂掉的信息就大量抛出来了。第二类为页面出去Http500错误,页面上打出AnalysisServer没法链接等字样,其余什么都干不了了。运维
2, 临时处理方案大数据
针对第一类问题,运维人员必须立刻重启部署TFS的IIS应用程序,重启后程序恢复正常使用。日志
针对第二类问题,咱们开发了一个程序,周期性访问TFS门户,遇到Http 500状态,程序自动重启TFSJobAgent服务,并将信息发送到邮件和微信。blog
经过上述方式,维护团队成员总体提心吊胆的过着日子,时刻要关注着邮件等,并天天定点把服务进行手工重启,以避免最小频率的把问题暴露给用户。图片
3, 最终问题的排查和解决开发
上述方法总不是长久之计,在实在是没法解决的状况小,协调微软的技术支持开了一个紧急的Case支持。把各类系统日志、IIS日志、DB日志、TFS日志发过去,经过系统的分析,最终歪打正着地把让上述问题不在周期性的重现了。部署
解决问题的最终方法是调整TFS后台分析数据库的运行频率便可。修改方法以下:
打开参数设置WebService
修改更新分析服务频率参数
查看结果
经过设置,通过一段时间观察,TFS服务运行正常了,困扰了咱们几个时间,耗费大量时间的问题得以解决。
最后来一个总结,经过此次在真实环境中使用SQl Server的Analysis Service,数据仓库到Cube中的增量处理,在大数据量的状况下,特别是维度中有较多层级关系结构的,在进行增量更新时,必定要给增量处理预留足够的时间。还有就是对于集成应用该产品的TFS或者其余产品,在支持大数据量业务的环境中,必定要考虑这个问题。要不面对这个问题时,真的多是要浪费不少的时间和精力,走许多的弯路。