启动是 App 给用户的第一印象,启动越慢用户流失的几率就越高,良好的启动速度是用户体验不可缺乏的一环。启动优化涉及到的知识点很是多面也很广,一篇文章难以包含所有,因此拆分红两部分:原理和实践。php
本文从基础知识出发,先回顾一些核心概念,为后续章节作铺垫;接下来介绍 IPA 构建的基本流程,以及这个流程里可用于启动优化的点;最后大篇幅讲解 dyld3 的启动 pipeline,由于启动优化的重点还在运行时。html
小编推荐一个技术交流圈子会来浅谈一下iOS开发中有哪些方向和职业规划,同时小编也欢迎你们加入小编的能够加QQ群:1001906160! 群里会免费提供相关面试资料,书籍欢迎你们入驻!前端
启动有两种定义:面试
不一样产品的业务形态不同,对于抖音来讲,首页的数据加载完成就是视频的第一帧播放;对其余首页是静态的 App 来讲,Launch Image 消失就是首页数据加载完成。因为标准很难对齐,因此咱们通常使用狭义的启动定义:即启动终点为启动图彻底消失的第一帧。swift
以抖音为例,用户感觉到的启动时间:后端
Tips:启动最佳时间是 400ms 之内,由于启动动画时长是 400ms。缓存
这是从用户感知维度定义启动,那么代码上如何定义启动呢?Apple 在 MetricKit 中给出了官方计算方式:安全
CA::Transaction::commit()
Tips:
CATransaction
是 Core Animation 提供的一种事务机制,把一组 UI 上的修改打包,一块儿发给 Render Server 渲染。闭包
根据场景的不一样,启动能够分为三种:冷启动,热启动和回前台。app
那么,线上用户的冷启动多仍是热启动多呢?
答案是和产品形态有关系,打开频次越高,热启动比例就越高。
Mach-O 是 iOS 可执行文件的格式,典型的 Mach-O 是主二进制和动态库。Mach-O 能够分为三部分:
Header 的最开始是 Magic Number,表示这是一个 Mach-O 文件,除此以外还包含一些 Flags,这些 flags 会影响 Mach-O 的解析。
Load Commands 存储 Mach-O 的布局信息,好比 Segment command 和 Data 中的 Segment/Section 是一一对应的。除了布局信息以外,还包含了依赖的动态库等启动 App 须要的信息。
Data 部分包含了实际的代码和数据,Data 被分割成不少个 Segment,每一个 Segment 又被划分红不少个 Section,分别存放不一样类型的数据。
标准的三个 Segment 是 TEXT,DATA,LINKEDIT,也支持自定义:
dyld 是启动的辅助程序,是 in-process 的,即启动的时候会把 dyld 加载到进程的地址空间里,而后把后续的启动过程交给 dyld。dyld 主要有两个版本:dyld2 和 dyld3。
dyld2 是从 iOS 3.1 引入,一直持续到 iOS 12。dyld2 有个比较大的优化是dyld shared cache,什么是 shared cache 呢?
iOS 13 开始 Apple 对三方 App 启用了 dyld3,dyld3 的最重要的特性就是启动闭包,闭包里包含了启动所须要的缓存信息,从而提升启动速度。
内存能够分为虚拟内存和物理内存,其中物理内存是实际占用的内存,虚拟内存是在物理内存之上创建的一层逻辑地址,保证内存访问安全的同时为应用提供了连续的地址空间。
物理内存和虚拟内存以页为单位映射,但这个映射关系不是一一对应的:一页物理内存可能对应多页虚拟内存;一页虚拟内存也可能不占用物理内存。
iPhone 6s 开始,物理内存的 Page 大小是 16K,6 和以前的设备都是 4K,这是 iPhone 6 相比 6s 启动速度断崖式降低的缘由之一。
mmap 的全称是 memory map,是一种内存映射技术,能够把文件映射到虚拟内存的地址空间里,这样就能够像直接操做内存那样来读写文件。当读取虚拟内存,其对应的文件内容在物理内存中不存在的时候,会触发一个事件:File Backed Page In,把对应的文件内容读入物理内存。
启动的时候,Mach-O 就是经过 mmap 映射到虚拟内存里的(以下图)。下图中部分页被标记为 zero fill,是由于全局变量的初始值每每都是 0,那么这些 0 就不必存储在二进制里,增长文件大小。操做系统会识别出这些页,在 Page In 以后对其置为 0,这个行为叫作 zero fill。
启动的路径上会触发不少次 Page In,其实也比较容易理解,由于启动的会读写二进制中的不少内容。Page In 会占去启动耗时的很大一部分,咱们来看看单个 Page In 的过程:
其中解密是大头,IO 其次。
为何要解密呢?由于 iTunes Connect 会对上传 Mach-O 的 TEXT 段进行加密,防止 IPA 下载下来就直接能够看到代码。这也就是为何逆向里会有个概念叫作“砸壳”,砸的就是这一层 TEXT 段加密。iOS 13 对这个过程进行了优化,Page In 的时候不须要解密了。
既然 Page In 耗时,有没有什么办法优化呢?启动具备局部性特征,即只有少部分函数在启动的时候用到,这些函数在二进制中的分布是零散的,因此 Page In 读入的数据利用率并不高。若是咱们能够把启动用到的函数排列到二进制的连续区间,那么就能够减小 Page In 的次数,从而优化启动时间:
如下图为例,方法 1 和方法 3 是启动的时候用到的,为了执行对应的代码,就须要两次 Page In。假如咱们把方法 1 和 3 排列到一块儿,那么只须要一次 Page In,从而提高启动速度。
连接器 ld 有个参数-order_file 支持按照符号的方式排列二进制。获取启动时候用到的符号的有不少种方式,感兴趣的同窗能够看看抖音以前的文章:基于二进制文件重排的解决方案 APP 启动速度提高超 15%。
既然要构建,那么必然会有一些地方去定义如何构建,对应 Xcode 中的两个配置项:
以单 Target 为例,咱们来看下构建流程:
编译器能够分为两大部分:前端和后端,两者以 IR(中间代码)做为媒介。这样先后端分离,使得先后端能够独立的变化,互不影响。C 语言家族的前端是 clang,swift 的前端是 swiftc,两者的后端都是 llvm。
那么如何利用编译优化启动速度呢?
代码数量会影响启动速度,为了提高启动速度,咱们能够把一些无用代码下掉。那怎么统计哪些代码没有用到呢?能够利用 LLVM 插桩来实现。
LLVM 的代码优化流程是一个一个 Pass,因为 LLVM 是开源的,咱们能够添加一个自定义的 Pass,在函数的头部插入一些代码,这些代码会记录这个函数被调用了,而后把统计到的数据上传分析,就能够知道哪些代码是用不到的了 。
Facebook 给 LLVM 提的order_file的 feature 就是实现了相似的插桩。
通过编译后,咱们有不少个目标文件,接着这些目标文件会和静态库,动态库一块儿,连接出一个 Mach-O。连接的过程并不产生新的代码,只会作一些移动和补丁。
举一个基于连接优化启动速度的例子:
最开始讲解 Page In 的时候,咱们提到 TEXT 段的页解密很耗时,有没有办法优化呢?
能够经过 ld 的-rename_section,把 TEXT 段中的内容,好比字符串移动到其余的段(启动路径上不免会读不少字符串),从而规避这个解密的耗时。
抖音的重命名方案:
"-Wl,-rename_section,__TEXT,__cstring,__RODATA,__cstring",
"-Wl,-rename_section,__TEXT,__const,__RODATA,__const",
"-Wl,-rename_section,__TEXT,__gcc_except_tab,__RODATA,__gcc_except_tab",
"-Wl,-rename_section,__TEXT,__objc_methname,__RODATA,__objc_methname",
"-Wl,-rename_section,__TEXT,__objc_classname,__RODATA,__objc_classname",
"-Wl,-rename_section,__TEXT,__objc_methtype,__RODATA,__objc_methtype"
复制代码
编译完 Mach-O 以后会进行裁剪(strip),是由于里面有些信息,如调试符号,是不须要带到线上去的。裁剪有多种级别,通常的配置以下:
为何二方库在出静态库的时候要选择 Debugging Symbols 呢?是由于像 order_file 等连接期间的优化是基于符号的,若是把符号裁剪掉,那么这些优化也就不会生效了。
裁剪完二进制后,会和编译好的资源文件一块儿打包成.app 文件,接着对这个文件进行签名。签名的做用是保证文件内容很少很多,没有被篡改过。接着会把包上传到 iTunes Connect,上传后会对__TEXT
段加密,加密会减弱 IPA 的压缩效果,增长包大小,也会下降启动速度 (iOS 13 优化了加密过程,不会对包大小和启动耗时有影响)。
Apple 在 iOS 13 上对第三方 App 启用了 dyld3,官方数据显示,过去四年新发布的设备中有 93%的设备是 iOS 13,因此咱们重点看下 dyld3 的启动流程。
用户点击图标以后,会发送一个系统调用 execve 到内核,内核建立进程。接着会把主二进制 mmap 进来,读取 load command 中的 LC_LOAD_DYLINKER,找到 dyld 的的路径。而后 mmap dyld 到虚拟内存,找到 dyld 的入口函数_dyld_start
,把 PC 寄存器设置成_dyld_start
,接下来启动流程交给了 dyld。
注意这个过程都是在内核态完成的,这里提到了 PC 寄存器,PC 寄存器存储了下一条指令的地址,程序的执行就是不断修改和读取 PC 寄存器来完成的。
dyld 会首先建立启动闭包,闭包是一个缓存,用来提高启动速度的。既然是缓存,那么必然不是每次启动都建立的,只有在重启手机或者更新/下载 App 的第一次启动才会建立。闭包存储在沙盒的 tmp/com.apple.dyld 目录,清理缓存的时候切记不要清理这个目录。
闭包是怎么提高启动速度的呢?咱们先来看一下闭包里都有什么内容:
动态库的依赖是树状的结构,初始化的调用顺序是先调用树的叶子结点,而后一层层向上,最早调用的是 libSystem,由于他是全部依赖的源头。
为何闭包能提升启动速度呢?
由于这些信息是每次启动都须要的,把信息存储到一个缓存文件就能避免每次都解析,尤为是 Objective C 的运行时数据(Class/Method...)解析很是慢。
有了闭包以后,就能够用闭包启动 App 了。这时候不少动态库尚未加载进来,会首先对这些动态库 mmap 加载到虚拟内存里。接着会对每一个 Mach-O 作 fixup,包括 Rebase 和 Bind。
举个例子:一个 Objective C 字符串@"1234",编译到最后的二进制的时候是会存储在两个 section 里的
__TEXT,__cstring
,存储实际的字符串"1234"__DATA,__cfstring
,存储 Objective C 字符串的元数据,每一个元数据占用 32Byte,里面有两个指针:内部指针,指向__TEXT,__cstring
中字符串的位置;外部指针 isa,指向类对象的,这就是为何能够对 Objective C 的字符串字面量发消息的缘由。以下图,编译的时候,字符串 1234 在__cstring
的 0x10 处,因此 DATA 段的指针指向 0x10。可是 mmap 以后有一个偏移量 slide=0x1000,这时候字符串在运行时的地址就是 0x1010,那么 DATA 段的指针指向就不对了。Rebase 的过程就是把指针从 0x10,加上 slide 变成 0x1010。运行时类对象的地址已经知道了,bind 就是把 isa 指向实际的内存地址。
Bind & Rebase 以后,首先会执行 LibSystem 的 Initializer,作一些最基本的初始化:
注意这里没有初始化 objc 的类方法等信息,是由于启动闭包的缓存数据已经包含了 optimizeObjc。
接下来会进行 main 函数以前的一些初始化,主要包括+load 和 static initializer。这两类初始化函数都有个特色:调用顺序不肯定,和对应文件的连接顺序有关系。那么就会存在一个隐藏的坑:有些注册逻辑在+load 里,对应会有一些地方读取这些注册的数据,若是在+load 中读取,颇有可能读取的时候尚未注册。
那么,如何找到代码里有哪些 load 和 static initializer 呢?
在 Build Settings 里能够配置 write linkmap,这样在生成的 linkmap 文件里就能够找到有哪些文件里包含 load 或者 static initializer:
__mod_init_func
,static initializer__objc_nlclslist
,实现+load 的类__objc_nlcatlist
,实现+load 的 Category若是+load 方法里的内容很简单,会影响启动时间么?好比这样的一个+load 方法?
+ (void)load
{
printf("1234");
}
复制代码
编译完了以后,这个函数会在二进制中的 TEXT 两个段存在:__text
存函数二进制,cstring
存储字符串 1234。为了执行函数,首先要访问__text
触发一次 Page In 读入物理内存,为了打印字符串,要访问__cstring
,还会触发一次 Page In。
静态初始化是从哪来的呢?如下几种代码会致使静态初始化
__attribute__((constructor))
static class object
static object in global namespace
注意,并非全部的 static 变量都会产生静态初始化,编译器很智能,对于在编译期间就能肯定的变量是会直接 inline。
//会产生静态初始化
class Demo{
static const std::string var_1;
};
const std::string var_2 = "1234";
static Logger logger;
//不会产生静态初始化
static const int var_3 = 4;
static const char * var_4 = "1234";
复制代码
std::string 会合成 static initializer 是由于初始化的时候必须执行构造函数,这时候编译器就不知道怎么作了,只能延迟到运行时~
+load 和 static initializer 执行完毕以后,dyld 会把启动流程交给 App,开始执行 main 函数。main 函数里要作的最重要的事情就是初始化 UIKit。UIKit 主要会作两个大的初始化:
因为主线程的 dispatch_async 是基于 runloop 的,因此在+load 里若是调用了 dispatch_async 会在这个阶段执行。
线程在执行完代码就会退出,很明显主线程是不能退出的,那么就须要一种机制:事件来的时候执行任务,不然让线程休眠,Runloop 就是实现这个功能的。
Runloop 本质上是一个 While
循环,在图中橙色部分的 mach_msg_trap
就是触发一个系统调用,让线程休眠,等待事件到来,唤醒 Runloop,继续执行这个 while
循环。
Runloop 主要处理几种任务:Source0,Source1,Timer,GCD MainQueue,Block。在循环的合适时机,会以 Observer 的方式通知外部执行到了哪里。
那么,Runloop 与启动又有什么关系呢?
Runloop 在启动上主要有几点应用:
Tips: 会有一些逻辑要在启动以后 delay 一小段时间再回到主线程上执行,对于性能较差的设备,主线程 Runloop 可能一直处于忙的状态,因此这个 delay 的任务并不必定能按时执行。
UIKit 初始化以后,就进入了咱们熟悉的 UIApplicationDelegate 回调了,在这些会调里去作一些业务上的初始化:
willFinishLaunch
didFinishLaunch
didFinishLaunchNotification
要特别提一下 didFinishLaunchNotification
,是由于你们在埋点的时候一般会忽略还有这个通知的存在,致使把这部分时间算到 UI 渲染里。
通常会用 Root Controller 的 viewDidApper 做为渲染的终点,但其实这时候首帧已经渲染完成一小段时间了,Apple 在 MetricsKit 里对启动终点定义是第一个CA::Transaction::commit()
。
什么是 CATransaction 呢?咱们先来看一下渲染的大体流程
iOS 的渲染是在一个单独的进程 RenderServer 作的,App 会把 Render Tree 编码打包给 RenderServer,RenderServer 再调用渲染框架(Metal/OpenGL ES)来生成 bitmap,放到帧缓冲区里,硬件根据时钟信号读取帧缓冲区内容,完成屏幕刷新。CATransaction 就是把一组 UI 上的修改,合并成一个事务,经过 commit 提交。
渲染能够分为四个步骤
[CALayer layoutSubLayers]
,这时候 UIViewController
的 viewDidLoad
和 LayoutSubViews
会调用,autolayout
也是在这一步生效[CALayer display]
,若是 View 实现了 drawRect
方法,会在这个阶段调用详细回顾下整个启动过程,以及各个阶段耗时的影响因素:
_dyld_start
UIApplication
,启动 Main Runloopwill/didFinishLaunch
,这里主要是业务代码耗时viewDidLoad
和 Layoutsubviews
会在这里调用,Autolayout
太多会影响这部分时间drawRect
会调用dyld2 和 dyld3 的主要区别就是没有启动闭包,就致使每次启动都要:
本文回顾了 Mach-O,虚拟内存,mmap,Page In,Runloop 等基础概念,接下来介绍了 IPA 的构建流程,以及两个典型的利用编译器来优化启动的方案,最后详细的讲解了 dyld3 的启动 pipeline。
之因此花这么大篇幅讲原理,是由于任何优化都同样,只有深刻理解系统运做的原理,才能找到性能的瓶颈,下一篇咱们会介绍下如何利用这些原理解决实际问题。