岁月真是个养猪场,这几年,人胖了,微信代码也翻了。html
记得 14 年转岗来微信时,用本身笔记本编译微信工程才十来分钟。现在用公司配的 17 年款 27-inch iMac 编译要接近半小时;偶然间更新完代码,又莫名其妙须要全新编译。在这么低的编译效率下,开发心情受到严重影响。前端
因而年初我向上头请示,优化微信编译效率,上头也赞成了。git
在动手以前,先搜索目前已有方案,大概状况以下。github
1)将 Debug Information Format 改成 DWARF:objective-c
Debug 时是不须要生成符号表,能够检查一会儿工程(尤为开源库)有没有设置正确。chrome
2)将 Build Active Architecture Only 改成 Yes:小程序
Debug 时是不须要生成全架构,能够检查一会儿工程(尤为开源库)有没有设置正确。后端
3)优化头文件搜索路径:缓存
避免工程 Header Search Paths 设置了路径递归引用:性能优化
Xcode 编译源文件时,会根据 Header Search Paths 自动添加 -I 参数,若是递归引用的路径下子目录越多,-I 参数也越多,编译器预处理头文件效率就越低,因此不能简单的设置路径递归引用。一样 Framework Search Paths 也相似处理。
这是业界经常使用的作法,利用 cocoapods 插件 cocoapods-packager 将任意的 pod 打包成 Static Library,省去重复编译的时间;但缺点是不方便调试源码,若是库代码反复修改,须要从新生成二进制并上传到内部服务器,等等。
CCache 是一个可以把编译的中间产物缓存起来的工具,不须要过多修改项目配置,也不须要修改开发工具链。Xcode 9 有个很偶然的 bug,在源码没有任何修改的状况下常常触发全新编译,用 CCache 很好的解决这一问题。但随着 Xcode 10 修复全量编译问题,这一方案逐步弃用了。
distcc 是一个分布式编译工具,它原理是把本地多个编译任务分发到网络中多个机器,其余机器编译完成后,再把产物返回给本机上执行连接,最终获得编译结果。
如把 Derived Data 目录放到由内存建立的虚拟磁盘,或者购买最新款的 iMac Pro...
1)优化头文件搜索路径:
把一些递归引用路径去了后,总体编译速度快了 20s。
2)关闭 Enable Index-While-Building Functionality:
这选项无心中找到的(Xcode 9 的新特性?),默认打开,做用是 Xcode 编译时会顺带创建代码索引,但影响编译速度。关闭后总体编译速度快 80s(Xcode 会换回之前的方式,在空闲时间创建代码索引)。
kinda 是今年引入支付跨平台框架(C++),但编译速度奇慢,一个源文件编译都要 30s。另外生成的二进制大小在 App 占比较高,感受有很多冗余代码,理论上减小冗余代码也能加快编译速度。
通过分析 LinkMap 文件和使用 Xcode Preprocess 某些源文件,发现有如下问题:
1)proto 文件生成的代码较多;
2)某个基类/宏使用了大量模版。
对于问题一:能够设置 proto 文件选项为 optimize_for=CODE_SIZE 来让 protobuf 编译器生成精简版代码。但我是用本身的工具生成(具体原理可看《iOS版微信安装包“减肥”实战记录》),代码更少。
对于问题二:因为模版是编译期间的多态(增长代码膨胀和编译时间),因此能够把模版基类改为虚基类这种运行时的多态;另外推荐使用 hyper_function 取代 std::function,使得基类用通用函数指针,就能存储任意 lambda 回调函数,从而避免基类模板化。
例如:
template<typenameRequest, typenameResponse>
classBaseCgi {
public:
BaseCgi(Request request, std::function<void(Response &)> &callback) {
_request = request;
_callback = callback;
}
voidonRequest(std::vector<uint8_t> &outData) {
_request.toData(outData);
}
voidonResponse(std::vector<uint8_t> &inData) {
Response response;
response.fromData(inData);
callback(response);
}
public:
Request _request;
std::function<void(Response &)> _callback;
};
classCgiA : publicBaseCgi<RequestA, ResponseA> {
public:
CgiA(RequestA &request, std::function<void(ResponseA &)> &callback) :
BaseCgi(request, callback) {}
};
可改为:
class BaseRequest {
public:
virtual void toData(std::vector<uint8_t> &outData) = 0;
};
classBaseResponse {
public:
virtualvoidfromData(std::vector<uint8_t> &outData) = 0;
};
classBaseCgi {
public:
template<typenameRequest, typenameResponse>
BaseCgi(Request &request, hyper_function<void(Response &)> callback) {
_request = newRequest(request);
_response = newResponse;
_callback = callback;
}
voidonRequest(std::vector<uint8_t> &outData) {
_request->toData(outData);
}
voidonResponse(std::vector<uint8_t> &inData) {
_response->fromData(inData);
_callback(*_response);
}
public:
BaseRequest *_request;
BaseResponse *_response;
hyper_function<void(BaseResponse &)> _callback;
};
classRequestA : publicBaseRequest { ... };
classResponseA : publicBaseResponse { ... };
classCgiA : publicBaseCgi {
public:
CgiA(RequestA &request, hyper_function<void(ResponseA &)> &callback) :
BaseCgi(request, callback) {}
};
BaseCgi 由模版基类变成只有构造函数是模板的基类,onRequest 和 onResponse 逻辑代码并不由于基类模版实例化而被“复制黏贴”。
通过上述优化:总体编译速度快了 70s,而 kinda 二进制也减小了 60%,效果特别明显。
PCH(Precompile Prefix Header File)文件,也就是预编译头文件,其文件里的内容能被项目中的其余全部源文件访问。一般放一些通用的宏和头文件,方便编写代码,提升效率。
另外 PCH 文件预编译完成后,后面用到 PCH 文件的源文件编译速度也会加快。缺点是 PCH 文件和 PCH 引用到的头文件内容一旦发生变化,引用到 PCH 的全部源文件都要从新编译。因此使用时要谨慎。
在 Xcode 里设置 Prefix Header 和 Precompile Prefix Header 便可使用 PCH 文件并对它进行预编译:
微信使用 PCH 预编译后:编译速度提高很是可观,快了接近 280s。
经过上述优化,微信工程的编译时间由原来的 1,626.4s 降低到 1,182.8s,快了将近 450s,但仍然须要 20 分钟,使人不满意。
若是继续优化,得从编译器下手。正如咱们日常作的客户端性能优化,在优化以前,先分析原理,输出每一个地方的耗时,针对耗时作相对应的优化。
编译器,是把一种语言(一般是高级语言)转换为另外一种语言(一般是低级语言)的程序。
大多数编译器由三部分组成:
各部分的做用以下:
前端(Frontend):负责解析源码,检查错误,生成抽象语法树(AST),并把 AST 转化成类汇编中间代码;
优化器(Optimizer):对中间代码进行架构无关的优化,提升运行效率,减小代码体积,例如删除 if (0) 无效分支;
后端(Backend):把中间代码转换成目标平台的机器码。
LLVM 实现了更通用的编译框架,它提供了一系列模块化的编译器组件和工具链。首先它定义了一种 LLVM IR(Intermediate Representation,中间表达码)。Frontend 把原始语言转换成 LLVM IR;LLVM Optimizer 优化 LLVM IR;Backend 把 LLVM IR 转换为目标平台的机器语言。这样一来,无论是新的语言,仍是新的平台,只要实现对应的 Frontend 和 Backend,新的编译器就出来了。
在 Xcode,C/C++/ObjC 的编译器是 Clang(前端)+LLVM(后端),简称 Clang。
Clang 的编译过程有这几个阶段:
➜ clang -ccc-print-phases main.m
0: input, "main.m", objective-c
1: preprocessor, {0}, objective-c-cpp-output
2: compiler, {1}, ir
3: backend, {2}, assembler
4: assembler, {3}, object
5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image
1)预处理:
这阶段的工做主要是头文件导入,宏展开/替换,预编译指令处理,以及注释的去除。
2)编译:
这阶段作的事情比较多,主要有:
a. 词法分析(Lexical Analysis):将代码转换成一系列 token,如大中小括号 paren'()' square'[]' brace'{}'、标识符 identifier、字符串 string_literal、数字常量 numeric_constant 等等;
b. 语法分析(Semantic Analysis):将 token 流组成抽象语法树 AST;
c. 静态分析(Static Analysis):检查代码错误,例如参数类型是否错误,调用对象方法是否有实现;
d. 中间代码生成(Code Generation):将语法树自顶向下遍历逐步翻译成 LLVM IR。
3)生成汇编代码:
LLVM 将 LLVM IR 生成当前平台的汇编代码,期间 LLVM 根据编译设置的优化级别 Optimization Level 作对应的优化(Optimize),例如 Debug 的 -O0 不须要优化,而 Release 的 -Os 是尽量优化代码效率并减小体积。
4)生成目标文件:
汇编器(Assembler)将汇编代码转换为机器代码,它会建立一个目标对象文件,以 .o 结尾。
5)连接:
连接器(Linker)把若干个目标文件连接在一块儿,生成可执行文件。
Clang/LLVM 编译器是开源的,咱们能够从官网下载其源码,根据上述编译过程,在每一个编译阶段埋点输出耗时,生成定制化的编译器。在本身准备动手的前一周,国外大神 Aras Pranckevičius 已经在 LLVM 项目提交了 rL357340 修改:clang 增长 -ftime-trace 选项,编译时生成 Chrome(chrome://tracing) JSON 格式的耗时报告,列出全部阶段的耗时。
效果以下:
说明以下:
1)总体编译(ExecuteCompiler)耗时 8,423.8ms
2)其中前端(Frontend)耗时 5,307.9ms,后端(Backend)耗时 3,009.6ms
3)而前端编译里头文件 SourceA 耗时 xx ms,B 耗时 xx ms,...
4)头文件处理里 Parse ClassA 耗时 xx ms,B 耗时 xx ms,...
5)等等
这就是我想要的耗时报告!
接下来修改工程 CC={YOUR PATH}/clang,让 Xcode 编译时使用本身的编译器;同时编译选项 OTHER_CFLAGS 后面增长 -ftime-trace,每一个源文件编译后输出耗时报告。
最终把全部报告汇聚起来,造成总体的编译耗时:
由总体耗时能够看出:
1)编译器前端处理(Frontend)耗时 7,659.2s,占总体 87%;
2)而前端处理下头文件处理(Source)耗时 7,146.2s,占总体 71.9%!
猜想:头文件嵌套严重,每一个源文件都要引入几十个甚至几百个头文件,每一个头文件源码要作预处理、词法分析、语法分析等等。实际上源文件不须要使用某些头文件里的定义(如 class、function),因此编译时间才那么长。
因而又写了个工具,统计全部头文件被引用次数、总处理时间、头文件分组(指一个耗时顶部的头文件所引用到的全部子头文件的集合)。
列出一份表格(截取 Top10):
如上表所示:
Header1 处理时间 1187.7s,被引用 2,304 次;
Header2 处理时间 1,124.9s,被引用 3,831 次;
后面 Header3~10 都是被 Header1 引用。
因此能够尝试优化 TopN 头文件里的头文件引用,尽可能不包含其余头文件。
一般咱们写代码时,若是用到某个类,就直接 include 该类声明所在头文件,但在头文件,咱们能够用前置声明解决。
所以优化头文件思路很简单:就是能用前置声明,就用前置声明替代 include。
实际上改动量很是大:我跟组内另外的同事 vakeee 分工优化 Header1 和 Header2,花了整整 5 个工做日,才改完。效果仍是有,总体编译时间减小 80s。
但须要优化的头文件还有几十个,咱们不可能继续作这种体力活。所以咱们能够作这样的工具,经过 AST 找到代码里出现的标识符(包括类型、函数、宏),以及标识符定义所在文件,而后分析是否须要 include 它定义所在文件。
先看看代码如何转换 AST,如如下代码:
// HeaderA.h
struct StructA {
intval;
};
// HeaderB.h
structStructB {
intval;
};
// main.c
#include "HeaderA.h"
#include "HeaderB.h"
inttestAndReturn(structStructA *a, structStructB *b) {
returna->val;
}
控制台输入:
➜ TestContainer clang -Xclang -ast-dump -fsyntax-only main.c
TranslationUnitDecl 0x7f8f36834208 <<invalid sloc>> <invalid sloc>
|-RecordDecl 0x7faa62831d78 <./HeaderA.h:12:1, line:14:1> line:12:8 struct StructA definition
| `-FieldDecl 0x7faa6383da38 <line:13:2, col:6> col:6 referenced val 'int'
|-RecordDecl 0x7faa6383da80 <./HeaderB.h:12:1, line:14:1> line:12:8 struct StructB definition
| `-FieldDecl 0x7faa6383db38 <line:13:2, col:6> col:6 val 'int'
`-FunctionDecl 0x7faa6383de50 <main.c:35:1, line:37:1> line:35:5 testAndReturn 'int (struct StructA *, struct StructB *)'
|-ParmVarDecl 0x7faa6383dc30 <col:19, col:35> col:35 used a 'struct StructA *'
|-ParmVarDecl 0x7faa6383dd40 <col:38, col:54> col:54 b 'struct StructB *'
`-CompoundStmt 0x7faa6383dfc8 <col:57, line:37:1>
`-ReturnStmt 0x7faa6383dfb8 <line:36:2, col:12>
`-ImplicitCastExpr 0x7faa6383dfa0 <col:9, col:12> 'int'<LValueToRValue>
`-MemberExpr 0x7faa6383df70 <col:9, col:12> 'int'lvalue ->val 0x7faa6383da38
`-ImplicitCastExpr 0x7faa6383df58 <col:9> 'struct StructA *'<LValueToRValue>
`-DeclRefExpr 0x7faa6383df38 <col:9> 'struct StructA *'lvalue ParmVar 0x7faa6383dc30 'a''struct StructA *'
从上能够看出:每一行包括 AST Node 的类型、所在位置(文件名,行号,列号)和结点描述信息。头文件定义的类也包含进 AST 中。AST Node 常见类型有 Decl(如 RecordDecl 结构体定义,FunctionDecl 函数定义)、Stmt(如 CompoundStmt 函数体括号内实现)。
Clang AST 有三个重要的基类:ASTFrontendAction、ASTConsumer 以及 RecursiveASTVisitor。
ClangTool 类读入命令行配置项后初始化 CompilerInstance;CompilerInstance 成员函数 ExcutionAction 会调用 ASTFrontendAction 3 个成员函数 BeginSourceFile(准备遍历 AST)、Execute(解析 AST)、EndSourceFileAction(结束遍历)。
ASTFrontendAction 有个重要的纯虚函数 CreateASTConsumer(会被本身 BeginSourceFile 调用),用于返回读取 AST 的 ASTConsumer 对象。
代码以下:
class MyFrontendAction : public clang::ASTFrontendAction {
public:
virtualstd::unique_ptr<clang::ASTConsumer> CreateASTConsumer(clang::CompilerInstance &CI, llvm::StringRef file) override {
TheRewriter.setSourceMgr(CI.getASTContext().getSourceManager(), CI.getASTContext().getLangOpts());
returnllvm::make_unique<MyASTConsumer>(&CI);
}
};
intmain(intargc, constchar**argv) {
clang::tooling::CommonOptionsParser op(argc, argv, OptsCategory);
clang::tooling::ClangTool Tool(op.getCompilations(), op.getSourcePathList());
intresult = Tool.run(clang::tooling::newFrontendActionFactory<MyFrontendAction>().get());
returnresult;
}
ASTConsumer 有若干个能够 override 的方法,用来接收 AST 解析过程当中的回调,其中之一是工具用到的 HandleTranslationUnit 方法。当编译单元 TranslationUnit 的 AST 完整解析后,HandleTranslationUnit 会被回调。咱们在 HandleTranslationUnit 使用 RecursiveASTVisitor 对象以深度优先的方式遍历 AST 全部结点。
代码以下:
class MyASTVisitor
: public clang::RecursiveASTVisitor<MyASTVisitor> {
public:
explicitMyASTVisitor(clang::ASTContext *Ctx) {}
boolVisitFunctionDecl(clang::FunctionDecl* decl) {
// FunctionDecl 下的全部参数声明容许前置声明取代 include
// 如上面 Demo 代码里 StructA、StructB
returntrue;
}
boolVisitMemberExpr(clang::MemberExpr* expr) {
// 被引用的成员所在的类,须要 include 它定义所在文件
// 如 StructA
returntrue;
}
boolVisitXXX(XXX) {
returntrue;
}
// 同一个类型,可能出现若干次断定结果
// 若是其中一个判断的结果须要 include,则 include
// 不然使用前置声明代替 include
// 例如 StructA 只能 include,StructB 能够前置声明
};
class MyASTConsumer : public clang::ASTConsumer {
private:
MyASTVisitor Visitor;
public:
explicitMyASTConsumer(clang::CompilerInstance *aCI)
: Visitor(&(aCI->getASTContext())) {}
void HandleTranslationUnit(clang::ASTContext &context) override {
clang::TranslationUnitDecl *decl = context.getTranslationUnitDecl();
Visitor.TraverseTranslationUnitDecl(decl);
}
};
工具框架大体如上所示。
不过早在 2011 年 Google 内部作了个基于 Clang libTooling 的工具 include-what-you-use,用来整理 C/C++ 头文件。
这个工具的使用效果以下:
➜ include-what-you-use main.c
HeaderA.h has correct #includes/fwd-decls)
HeaderB.h has correct #includes/fwd-decls)
main.c should add these lines:
struct StructB;
main.c should remove these lines:
- #include "HeaderB.h" // lines 2-2
The full include-list formain.c:
#include "HeaderA.h" // for StructA
struct StructB;
咱们在 IWYU 基础上,增长了 ObjC 语言的支持,并加强它的逻辑,让结果更好看(一般 IWYU 处理完后,会引入不少头文件和前置声明,咱们作剪枝处理,进一步去掉多余的头文件和前置声明,篇幅限制就很少作解释了)。
微信源码经过工具优化头文件引入后,总体编译时间降到了 710s。另外头文件依赖的减小,也能下降因修改头文件引发大规模源码重编的可能性。
咱们再用编译耗时分析工具分析当前瓶颈:
WCDB 头文件处理时间太长了,业务代码(如 Model 类)没有很好的隔离 WCDB 代码,把 WINQ 暴露出去,外面被动 include WCDB 头文件。解决方法有不少,例如 WCDB 相关放 category 头文件(XXModel+WCDB.h)里引入,或者跟其余库同样,把 放 PCH。
最终编译时间优化到 540s 如下,是原来的三分之一,编译效率获得巨大的提高。
总结微信的编译优化方案:
即:
A)优化头文件搜索路径;
B)关闭 Enable Index-While-Building Functionality;
C)优化 PB/模版,减小冗余代码;
D)使用 PCH 预编译;
E)使用工具优化头文件引入;尽可能避免头文件里包含 C++ 标准库。
期待公司的蓝盾分布式编译 for ObjC;另外能够把业务代码模块化,项目文件按模块加载,目前 kinda/小程序/mars 在很好的实践中。(本文同步发布于:http://www.52im.net/thread-2873-1-1.html)
[3] Clang之语法抽象语法树AST