移动端监控体系之技术原理剖析

在这样一个注重用户体验的时代,APM 技术快速发展,国内更是百花齐放,最近对各个公司的 APM 产品有一个调研,并在此基础上进行了本身的实践。这里就从 iOS 的角度出发,谈谈本身对移动端 APM 的技术上的理解,并提供相对应的实例。ios

何为 APM

APM 的全称是Application performance management,即应用性能管理,经过对应用的可靠性、稳定性等方面的监控,进而达到能够快速修复问题、提升用户体验的目的。git

国内各大公司都有本身的一套监控体系,这个系统多是本身研发,也多是第三方提供,固然对于这个数据为王的时代,不少有实力的公司倾向于自主研发,掌握核心数据。比较有表明性的 APM 产品有:听云、阿里百川、腾讯 bugly、NewRelic、OneAPM、网易云捕等github

说到监控,那么指标是咱们所关注的呢?以下所示微信

  • 网络请求:成功率、状态码、流量、网络响应时间、HTTP与HTTPS的 DNS 解析、TCP握手、SSL握手(HTTP除外)、首包时间等时间
  • 界面卡顿、卡顿堆栈
  • 崩溃率、崩溃堆栈
  • Abort 率:也就是因为内存太高的等缘由,被系统杀死的状况
  • 交互监控:页面加载时间、页面的交互痕迹
  • 维度信息:地域、运营商、网络接入方式、操做系统、应用版本等
  • 其余:内存、帧率、CPU使用率、启动时间、电量等

聊聊原理

卡顿检测

当应用发生卡顿的时候,通常会伴随着掉帧,因此帧率是最容易想到的指标来判断卡顿。对于线下的测试环境,咱们可使用帧率来对开发作一些提示,告诉他们可能发生了卡顿。可是帧率不稳定性较高,因此通常会采起另外一种方式来作卡顿检测。那就是Runloop,对于细节能够查看 Runloop 源码,会发现对于事件的处理主要就是在kCFRunLoopBeforeSourceskCFRunLoopBeforeWaiting状态之间,还有kCFRunLoopAfterWaiting以后。那咱们就能够对两个状态进行监控,若是消耗时间过久,就表明着卡顿的发生。网络

阿里百川

上图摘自阿里百川,如图所示,咱们会对卡顿次数作一个判断,若是次数为1,但时间超时,则为单次耗时较长的卡顿,若是次数到达阀值,则证实是连续短期卡顿。session

当卡顿发生以后,咱们为了定位,会收集当时的一个堆栈状况,在此你可使用 PLCrashReporter 来作,也能够本身研发一个堆栈收集库(可参考这里来作app

对于实例,网上已经有不少开源的项目,你能够参考这个运维

崩溃检测

对于崩溃的状况,通常是由 Mach异常或 Objective-C 异常(NSException)引发的。咱们能够针对这两种状况抓取对应的 Crash 事件。socket

Mach 异常捕获

若是想要作mach 异常捕获,须要注册一个异常端口,这个异常端口会对当前任务的全部线程有效,若是想要针对单个线程,能够经过 thread_set_exception_ports注册本身的异常端口,发生异常时,首先会将异常抛给线程的异常端口,而后尝试抛给任务的异常端口,当咱们捕获异常时,就能够作一些本身的工做,好比,当前堆栈收集等。tcp

对于如何注册一个异常端口,这里有示意图和 PLCrashReporter 能够参考

Unix 信号捕获

对于Mach 异常,操做系统会将其转换为对应的 Unix信号,因此若是你对Mach不熟悉的话,也能够经过注册signalHandler的方式来作信号异常。对于实例,你能够参考这里

signal(SIGHUP, signalHandler);
signal(SIGINT, signalHandler);
signal(SIGQUIT, signalHandler);
   
signal(SIGABRT, signalHandler);
signal(SIGILL, signalHandler);
signal(SIGSEGV, signalHandler);
signal(SIGFPE, signalHandler);
signal(SIGBUS, signalHandler);
signal(SIGPIPE, signalHandler);
复制代码

NSException 捕获

对于NSException异常,也比较容易处理,经过注册NSUncaughtExceptionHandler捕获异常信息便可,将拿到的NSException细节写入Crash日志,上传到后台作数据分析

// register the uncaught exception handler
 NSSetUncaughtExceptionHandler(&handler);
复制代码

Abort 率检测

目前对于内存太高被杀死的状况是没有办法直接统计的,通常经过排除法来作百分比的统计,原理以下

  • 程序启动,设置标志位
  • 程序正常退出,清楚标志
  • 程序Crash,清楚标志
  • 程序电量太低致使关机,这个也没办法直接监控,能够加入电量检测来辅助判断
  • 第二次启动,标志位若是存在,则表明Abort一次,上传后台作统计

阿里百川

交互监控

对于页面的加载时间,这个比较容易实现,直接经过Runtime hook对应的生命周期方法便可,好比 viewDidLoadviewWillAppear

对于用户的交互痕迹,好比点击了那个按钮、跳转到了那个页面,这些信息偏于用户行为的收集,咱们也独立研发了一个无埋点的SDK,专门来作用户行为数据的收集与分析,核心也是基于 hook AOP的思想。细节能够参考我同事的做品

网络监控

对于成功率、状态码、流量,以及网络的响应时间之类的,咱们能够主要能够经过两种方式来作

  • 针对URLConnectionCFNetworkNSURLSession三种网络作Hookhook的具体技术能够是method swizzle 也能够是ProxyFishhook之类的
  • 也可使用 NSURLProtocol 对网络请求的拦截,进而获得流量、响应时间等信息,可是NSURLProtocol有本身的局限,好比NSURLProtocol只能拦截NSURLSessionNSURLConnection以及UIWebView,可是对于CFNetwork则无能为力

对于第一种方式能够Hook哪些方法的,能够参考这个图

对于 HTTP与HTTPS 的 DNS 解析、TCP握手、SSL握手(HTTP除外)、首包时间等时间的统计,稍有难度

可是,由于咱们所使用的URLConnectionCFNetworkNSURLSession底层都是 BSDSocket,因此能够尝试在socket上动手脚来实现效果,相似于经过ViewController的生命周期方法来统计页面加载时间的作法,咱们Hook socket相关的方法来作,好比经过hook socket链接时的 connect方法,拿到tcp握手的起始时间,经过hook SSLHandshake方法,在SSLHandshake执行的时候拿到 SSL握手的起始时间等。目前听云已经提供了 HTTP 的分段时间查询功能,你们去体验下

int	connect(int, const struct sockaddr *, socklen_t) __DARWIN_ALIAS_C(connect);

OSStatus SSLHandshake(SSLContextRef ctx) 
复制代码

可是对于 iOS 9 Apple 加入 ATS 新特性,并要求开发者使用 HTTPS,我在 iOS九、10上对 HTTPS 网络请求Hook socket方法时候,有一些方法hook 失效,猜测应该是Apple 进行了加固、加密,致使一些系统方法没办法hook,因此在 iOS九、10 上没法经过socket来取得HTTPS网络的分段时间(纠正:fishhook 没法 hook socket 的缘由:https://github.com/facebook/fishhook/issues/40)

不过apple在 iOS 10 推出一个API,能够在 iOS10 版本以上进行网络信息的收集

- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didFinishCollectingMetrics:(NSURLSessionTaskMetrics *)metrics 
复制代码

打印结果以下

(Fetch Start) 2017-02-24 09:03:06 +0000
(Domain Lookup Start) 2017-02-24 09:03:06 +0000
(Domain Lookup End) 2017-02-24 09:03:06 +0000
(Connect Start) 2017-02-24 09:03:14 +0000
(Secure Connection Start) 2017-02-24 09:03:14 +0000
(Secure Connection End) 2017-02-24 09:03:16 +0000
(Connect End) 2017-02-24 09:03:16 +0000
(Request Start) 2017-02-24 09:03:16 +0000
(Request End) 2017-02-24 09:03:16 +0000
(Response Start) 2017-02-24 09:03:16 +0000
(Response End) 2017-02-24 09:03:16 +0000
复制代码

固然,对于网络各层次的时间获取,若是你有好的方案,但愿您能够留言告知。同时对于一些维度信息和内存等基础指标,很容易获取,这里就不细谈了

大礼包

在调研和学习APM技术的过程当中,发现了不少优秀的博客,因此在此推荐给你们,有须要的能够自取

相关文章
相关标签/搜索