不论从事安卓应用开发,仍是安卓系统研发,应该都遇到应用无响应(简称ANR)问题,当应用程序一段时间没法及时响应,则会弹出ANR对话框,让用户选择继续等待,仍是强制关闭。android
绝大多数人对ANR的了解仅停留在主线程耗时或CPU繁忙会致使ANR。面试过无数的候选人,几乎没有人能真正从系统级去梳理清晰ANR的前因后果,好比有哪些路径会引起ANR? 有没有可能主线程不耗时也出现ANR?如何更好的调试ANR?ios
若是没有深刻研究过Android Framework的源代码,是难以造成对ANR有一个全面、正确的理解。研究系统源码以及工做实践后提炼而来,以图文并茂的方式跟你们讲解,相信定能帮忙你们加深对ANR的理解。git
对于知识学习的过程,要知其然知其因此然,才能作到庖丁解牛般游刃有余。要深刻理解ANR,就须要从根上去找寻答案,那就是ANR是如何触发的?面试
ANR是一套监控Android应用响应是否及时的机制,能够把发生ANR比做是引爆炸弹,那么整个流程包含三部分组成:算法
常见的ANR有service、broadcast、provider以及input,更多细节详见理解Android ANR的触发原理,http://gityuan.com/2016/07/02...,接下来本文以图文形式分别讲解。shell
下面来看看埋炸弹与拆炸弹在整个服务启动(startService)过程所处的环节。性能优化
图解1:网络
更多细节详见startService启动过程分析,http://gityuan.com/2016/03/06...架构
broadcast跟service超时机制大抵相同,对于静态注册的广播在超时检测过程须要检测SP,以下图所示。app
图解2:
(说明:SP从8.0开始采用名叫“queued-work-looper”的handler线程,在老版本采用newSingleThreadExecutor建立的单线程的线程池)
若是是动态广播,或者静态广播没有正在执行持久化操做的SP任务,则不须要通过“queued-work-looper”线程中转,而是直接向中控系统汇报,流程更为简单,以下图所示:
可见,只有XML静态注册的广播超时检测过程会考虑是否有SP还没有完成,动态广播并不受其影响。SP的apply将修改的数据项更新到内存,而后再异步同步数据到磁盘文件,所以不少地方会推荐在主线程调用采用apply方式,避免阻塞主线程,但静态广播超时检测过程须要SP所有持久化到磁盘,若是过分使用apply会增大应用ANR的几率,更多细节详见http://gityuan.com/2017/06/18...
Google这样设计的初衷是针对静态广播的场景下,保障进程被杀以前必定能完成SP的数据持久化。由于在向中控系统汇报广播接收者工做执行完成前,该进程的优先级为Foreground级别,高优先级下进程不但不会被杀,并且能分配到更多的CPU时间片,加速完成SP持久化。
更多细节详见Android Broadcast广播机制分析,http://gityuan.com/2016/06/04...
provider的超时是在provider进程首次启动的时候才会检测,当provider进程已启动的场景,再次请求provider并不会触发provider超时。
图解3:
更多细节详见理解ContentProvider原理,http://gityuan.com/2016/07/30...
input的超时检测机制跟service、broadcast、provider大相径庭,为了更好的理解input过程先来介绍两个重要线程的相关工做:
input的超时机制并不是时间到了必定就会爆炸,而是处理后续上报事件的过程才会去检测是否该爆炸,因此更相信是扫雷的过程,具体以下图所示。
图解4:
input超时机制为何是扫雷,而非定时爆炸呢?是因为对于input来讲即使某次事件执行时间超过timeout时长,只要用户后续在没有再生成输入事件,则不会触发ANR。这里的扫雷是指当前输入系统中正在处理着某个耗时事件的前提下,后续的每一次input事件都会检测前一个正在处理的事件是否超时(进入扫雷状态),检测当前的时间距离上次输入事件分发时间点是否超过timeout时长。若是前一个输入事件,则会重置ANR的timeout,从而不会爆炸。
更多细节详见Input系统-ANR原理分析,http://gityuan.com/2017/01/01...
不一样组件的超时阈值各有不一样,关于service、broadcast、contentprovider以及input的超时阈值以下表:
前台与后台服务的区别
系统对前台服务启动的超时为20s,然后台服务超时为200s,那么系统是如何区别前台仍是后台服务呢?来看看ActiveServices的核心逻辑:
在startService过程根据发起方进程callerApp所属的进程调度组来决定被启动的服务是属于前台仍是后台。当发起方进程不等于ProcessList.SCHEDGROUPBACKGROUND(后台进程组)则认为是前台服务,不然为后台服务,并标记在ServiceRecord的成员变量createdFromFg。
什么进程属于SCHEDGROUPBACKGROUND调度组呢?进程调度组大致可分为TOP、前台、后台,进程优先级(Adj)和进程调度组(SCHED_GROUP)算法较为复杂,其对应关系可粗略理解为Adj等于0的进程属于Top进程组,Adj等于100或者200的进程属于前台进程组,Adj大于200的进程属于后台进程组。关于Adj的含义见下表,简单来讲就是Adj>200的进程对用户来讲基本是无感知,主要是作一些后台工做,故后台服务拥有更长的超时阈值,同时后台服务属于后台进程调度组,相比前台服务属于前台进程调度组,分配更少的CPU时间片。
关于细节详看法读Android进程优先级ADJ算法,http://gityuan.com/2018/05/19...。
前台服务准确来讲,是指由处于前台进程调度组的进程发起的服务。这跟常说的fg-service服务有所不一样,fg-service是指挂有前台通知的服务。
前台广播超时为10s,后台广播超时为60s,那么如何区分前台和后台广播呢?来看看AMS的核心逻辑:
BroadcastQueue broadcastQueueForIntent(Intent intent) {
final boolean isFg = (intent.getFlags() & Intent.FLAG_RECEIVER_FOREGROUND) != 0;
return (isFg) ?mFgBroadcastQueue :mBgBroadcastQueue;
}
mFgBroadcastQueue = new BroadcastQueue(this, mHandler,
"foreground", BROADCAST_FG_TIMEOUT, false);
mBgBroadcastQueue = new BroadcastQueue(this, mHandler,
"background", BROADCAST_BG_TIMEOUT, true);
根据发送广播sendBroadcast(Intent intent)中的intent的flags是否包含FLAGRECEIVERFOREGROUND来决定把该广播是放入前台广播队列或者后台广播队列,前台广播队列的超时为10s,后台广播队列的超时为60s,默认状况下广播是放入后台广播队列,除非指明加上FLAGRECEIVERFOREGROUND标识。
后台广播比前台广播拥有更长的超时阈值,同时在广播分发过程遇到后台service的启动(mDelayBehindServices)会延迟分发广播,等待service的完成,由于等待service而致使的广播ANR会被忽略掉;后台广播属于后台进程调度组,而前台广播属于前台进程调度组。简而言之,后台广播更不容易发生ANR,同时执行的速度也会更慢。
另外,只有串行处理的广播才有超时机制,由于接收者是串行处理的,前一个receiver处理慢,会影响后一个receiver;并行广播经过一个循环一次性向全部的receiver分发广播事件,因此不存在彼此影响的问题,则没有广播超时。
前台广播准确来讲,是指位于前台广播队列的广播。
除了前台服务,前台广播,还有前台ANR可能会让你云里雾里的,来看看其中核心逻辑:
决定是前台或者后台ANR取决于该应用发生ANR时对用户是否可感知,好比拥有当前前台可见的activity的进程,或者拥有前台通知的fg-service的进程,这些是用户可感知的场景,发生ANR对用户体验影响比较大,故须要弹框让用户决定是否退出仍是等待,若是直接杀掉这类应用会给用户形成莫名其妙的闪退。
后台ANR相比前台ANR,只抓取发生无响应进程的trace,也不会收集CPU信息,而且会在后台直接杀掉该无响应的进程,不会弹框提示用户。
前台ANR准确来讲,是指对用户可感知的进程发生的ANR。
对于service、broadcast、provider、input发生ANR后,中控系统会立刻去抓取现场的信息,用于调试分析。收集的信息包括以下:
整个ANR信息收集过程比较耗时,其中抓取进程的trace信息,每抓取一个等待200ms,可见persistent越多,等待时间越长。关于抓取trace命令,对于Java进程可经过在adb shell环境下执行kill -3 [pid]可抓取相应pid的调用栈;对于Native进程在adb shell环境下执行debuggerd -b [pid]可抓取相应pid的调用栈。对于ANR问题发生后的蛛丝马迹(trace)在traces.txt和dropbox目录中保存记录。更多细节详见理解Android ANR的信息收集过程,http://gityuan.com/2016/12/02...。
有了现场信息,能够调试分析,先定位发生ANR时间点,而后查看trace信息,接着分析是否有耗时的message、binder调用,锁的竞争,CPU资源的抢占,以及结合具体场景的上下文来分析,调试手段就须要针对前面说到的message、binder、锁等资源从系统角度细化更多debug信息,这里再也不展开,后续再以ANR案例来说解。
做为应用开发者应让主线程尽可能只作UI相关的操做,避免耗时操做,好比过分复杂的UI绘制,网络操做,文件IO操做;避免主线程跟工做线程发生锁的竞争,减小系统耗时binder的调用,谨慎使用sharePreference,注意主线程执行provider query操做。简而言之,尽量减小主线程的负载,让其空闲待命,以期可随时响应用户的操做。
最后,来回答文章开头的提问,有哪些路径会引起ANR? 答应是从埋下定时炸弹到拆炸弹之间的任何一个或多个路径执行慢都会致使ANR(以service为例),能够是service的生命周期的回调方法(好比onStartCommand)执行慢,能够是主线程的消息队列存在其余耗时消息让service回调方法迟迟得不到执行,能够是SP操做执行慢,能够是system_server进程的binder线程繁忙而致使没有及时收到拆炸弹的指令。另外ActivityManager线程也可能阻塞,出现的现象就是前台服务执行时间有可能超过10s,但并不会出现ANR。
发生ANR时从trace来看主线程却处于空闲状态或者停留在非耗时代码的缘由有哪些?能够是抓取trace过于耗时而错过现场,能够是主线程消息队列堆积大量消息而最后抓取快照一刻只是瞬时状态,能够是广播的“queued-work-looper”一直在处理SP操做。
本文的知识源自对Android系统源码的研究以及工做实践中提炼而来,Android达摩院独家武功秘籍分享给你们,但愿能升你们对提对ANR的理解。