在腾讯近三年,不少人觉得我在作Qzone,其实两年多我都在作内部系统:运营相关的工具、监控、数据分析等。虽然我一直但愿能有机会接触高负载应用的开发,对比内部系统的二三十我的的最高同时在线(这已是一种突破),可能几百万同时在线更会让人激动,可是两年多来的积累和收获也是颇为丰富的。 最近的重点在于实时监控分析系统的设计,主要目标是分析众多的数据,在最短的时间内最准确的定位问题根源,可是一直很迷茫,那么多数据的错综复杂关系,维度不一样,力度可能也不一样,业务关系更不必定在同一个点上……一时很难有头绪来作这件事情。个人初步想法是先把这些数据所有放在一块儿看,先根据业务逻辑关系放在一块儿,从总体上看监控情况分布,就像Google地图,缩小能够看整体,放大能够看局部细节,可是一堆问题接踵而来。其中包括数据量太大数据获取缓慢,节点众多关系复杂难以放在一块儿(这个问题已经解决),因为目前都是B/S架构,因此页面渲染大数据量根本响应不过来。虽然能够缩小范围来减小数据量,可是如何作呢?我很想知道Google如何处理上百万台设备和众多业务自身监控的,更甚是预警等。可能咱们如今的业务关系比较乱,没有Google那么单一规范,可是毕竟咱们的设备要少不少,总会有些折衷的方案,一步步来。只不过有时候时间不等人。 想找些人交流,可是发现交流的人基本上能够说是没有,我想不多人作相似的东西吧,即便有也不认识,谁会知道我也在作这些东西,谁会来指点一下我呢,呵呵。若是一直停留在人肉的问题分析,那么人力将会随着设备量增加而增加,这些批量的东西,交给机器来搞是必然的。单点监控咱们可能已经作到了,可是综合分析呢?谁有魄力迈出这一步? 其实我不多在公开博客上写关于本身工做内容的东西,主要是担忧和商业机密有关,呵呵。不过如今看来仍是要多交流多取经,才能更快进展。也但愿有相关经验的朋友能提供一些思路。