做者简介:杨婷,美团点评点餐终端团队成员。javascript
监控的重要性和必要性没必要多说,这是提升故障处理能力和保障服务质量所必须的一环。
那么监控究竟要作什么呢?简而言之:及时上报错误,收集有效信息,提供故障排查依据。前端
因此咱们监控平台须要包括记录型监控和捕捉型监控:java
场景还原是监控面板提供的一个很是有用的功能,它将支撑系统处理过的全部记录和错误按照时间顺序展现。经过场景还原的列表,咱们能够还原出指定用户在浏览页面过程当中发生的全部事情及其前后顺序,从而判断问题发生的时机和环境。node
假设如下场景:webpack
PM:BD反馈用户在购物车刷不出来啦!
RD:什么?我试试!我这里能够看到的呀
PM:商户反馈,店里有的用户能够有的用户不行
RD:别急,告诉我shopId和打不开的用户的帐号,我去监控平台上看一下
PM:xxx
RD在监控面板上使用场景还原功能,调出了该用户的全部信息记录。发现该用户是从菜品详情页进入的购物车,而再查看正常的用户都不是从这个入口进的,定位到是菜品详情页跳购物车的部分有问题,并马上进行了修复程序员
在以上这种用户可能有多种操做的场景中,场景还原法能够针对特定用户,还原其完整的操做路径和页面上发生的全部事情,帮助复现问题。
另外,一些非必现的问题,经常是因为不一样机型或环境引发的,也能够在场景还原中复现问题的发生环境予以判断。
web
本文主要介绍监控前端SDK的实践经验,仍有许多须要改进的地方,欢迎你们拍砖,帮助咱们改进。ajax
就前端SDK来讲,能够分为数据模块、数据处理模块、上报模块三大部分,其中数据模块包括各具体监控数据模块和环境数据模块:api
SDK里采用单例模式,包括各监控模块、环境模块和上报模块。
每一个具体监控模块获取上报模块实例进行上报,上报模块内部保证同时只会有一个上报请求。
事件的监听都在捕获阶段进行,防止由于事件冒泡被阻止而遗漏信息。跨域
环境模块收集如下环境信息:项目配置信息、web环境数据、jsbridge环境数据
其余的一些诸如UA、isp等web层能够获取的信息由web层获取。
该模块暴露init和getEnv方法
采起单请求上报的方式,每一个用户同时只会有一条上报请求,每次将当前记录到的监控信息列表一块儿上报,成功后再继续上报。
上报结束以前的新上报记录都存在localstorage,收到成功消息后删除已上报数据,继续上报,不成功的记录保留在localstorage。此处需注意对localstorage存储的上限作好控制。
在当前没有数据正在上报的状况下触发上报,尝试将当前localstorage的数据和新数据所有上报,若上报记录过多,则分条发送。所有发送完或上报失败,本次上报结束。
HTTPS页面被劫持后页面资源没法获取,劫持者无利可图的状况下会下降劫持的动力。
若仍被劫持,前端资源未到达本地,也没法完成上报,只能从网络层去监控。
因为我司已经全量切了HTTPS,所以该模块不在本监控系统中。
不过以前本团队作过对HTTP域下的劫持检测,其检测思路为请求Node层指定域名下的样本HTML或JS资源,对比返回结果是否符合预期。
资源完整性检查模块的任务是记录页面加载了哪些资源,并进行上报。
当咱们排查问题时,能够查看当前页面已经加载成功了哪些资源及其加载顺序,排除由于某些资源没有加载或者加载顺序不当而引发错误的状况。
内存中维护一个已加载资源的数组,每次上报后删除已上报的资源记录。
window上error事件代理,过滤window自己的error
根据标签类型判断资源类型,src或href为资源地址
为了捕获跨域js的错误,须要在相应资源标签上添加crossorigin属性。
一样采用XMLHttpRequest加hook方式实现。
open时记录接口url,send后根据status判断,接口调用失败时进行上报。
XMLHttpRequest.prototype.open = function open(method, url, bool) {
monitor.originXHR.open.apply(this, [method, url, bool]);
// get something...
// this.ajaxUrl = url;
}
XMLHttpRequest.prototype.send = function send(_data) {
const self = this;
this.addEventListener('readystatechange', () => {
if (self.readyState === 4) {
if (self.status !== 200 && self.status !== 304 && this.ajaxUrl !== REPORT_URL) { // filter urls
// report error info
// ...
// monitor.reporter.report(dataTypes.API_ERROR, error);
}
}
}, false);
monitor.originXHR.send.apply(this, [_data]);
};复制代码
过滤掉sdk自己的上报地址(防止上报失败引发循环上报)和一些其余须要忽略的接口地址。
敲黑板,接口访问url时多是一个相对路径,建议补全协议和domain
监听window上的error事件,过滤事件代理的error。
监听window上捕获阶段的click事件,记录点击相关数据。
业务代码中能够为比较关注的元素添加data属性,每次点击将会上报被点击元素的指定属性、附加信息和domPath帮助定位该元素。
记录用户交互信息能够明确问题发生时,该场景下用户的具体操做路径,结合环境数据、资源加载记录和错误数据,整个问题场景就一目了然了。
sdk的接入方式分为如下两种:
为了知足功能须要,当前监控平台v1的引入方式是将压缩后的sdk代码直接引入到被监控页面的head中,并由业务代码初始化配置项目名称等。该步操做能够借助webpack的插件来帮助完成,减轻业务组接入的复杂度。
后续改进方向考虑采用:核心基础库+loaders/plugins 的方式,将必须先加载的sdk代码引入在head中,其他代码等页面加载完成后再异步添加。
以上就是咱们终端团队监控平台前端SDK部分的实践分享啦,欢迎你们批评指正,有好的建议也但愿能提出来帮助咱们改进。咱们后续将不断优化,也将继续与你们保持讨论。耐心看到这里的读者,表示十二万分的感谢~~