《读书笔记》程序员的自我修养之编译和连接前端
对于经典的Hello world,程序是如何运行的呢?linux
#include <stdio.h>程序员
int main()算法
{后端
printf("Hello World\n");函数
return 0;工具
}优化
对于GCC编译器,程序运行分为如下四个过程:spa
预编译(Prepressing)--à编译(Compilation)--à汇编(Assembly)--à连接(Linking)翻译
预编译是将.C文件预编译成.i文件
$gcc –E hello.c –o hello.i
或
$cpp hello.c > hello.i
注:‘-E’选项表示只进行预编译;cpp是预编译器
预编译过程主要处理源代码文件中的以“#”开始的预编译指令(“#include”,“#define”等)。主要处理规则以下:
编译是整个过程的核心,也是最复杂部分之一。包括词法分析、语法分析、语义分析、源代码优化,生成汇编代码。
编译过程命令以下:
$gcc –S hello.i –o hello.s
目前的GCC版本将预编译和编译过程合二为一,使用一个叫作ccl的程序来完成这两个过程。
可直接调用ccl来完成预编译和编译过程,以下:
$ /user/lib/gcc/i486–linux–gnu/4.1/ccl hello.c
或者
$gcc –S hello.c –o hello.s
汇编器(as)是将汇编代码转变为机器可执行的指令(汇编指令和机器指令的对照表一一翻译)
汇编过程以下:
$as hello.s –o hello.o
或者
$gcc –c hello.s –o hello.o
或者
$gcc –c hello.c –o hello.o
连接的过程是连接器(ld)将目标文件(.o文件)变为可执行文件(.exe)的过程。
连接过程是一个复杂的过程,至关复杂!!!
$ld -static crt1.o crti.o crtbeginT.o hello.o -start-group -lgcc -lgcc_eh -lc-end-group crtend.o crtn.o
看了上面的命令,为何要将一大堆的文件连接起来才能够获得可执行文件??
且看后面的静态连接与动态连接篇幅。
上面分析了一段程序的执行过程,下面具体看看编译器到底作了什么工做。
编译过程通常能够分为6步:扫描(词法分析)、语法分析、语义分析、源代码优化、代码生成和目标代码优化。
一、扫描器(Scanner)的任务就是进行简单的词法分析,运用一种相似于有限状态机(Finite State Machine)的算法将源代码的字符序列分割成一系列的记号(Token)。词法分析产生的记号通常有如下几类:关键字、标识符、字面量(包含数字、字符串等)和特殊符号(如加号、等号)。扫描的过程由lex程序完成。
二、语法分析器(Grammar Parser)将对由扫描器产生的记号进行语法分析,从而产生语法树(Syntax Tree)。简单来说,由语法分析器生成的语法树就是以表达式(Expression)为节点的树。语法分析的过程由yacc工具完成。
三、语义分析由语义分析器(Semantic Analyzer)来完成。
----编译器所能分析的语义是静态语义,与之对应的动态语义只有在运行期才能肯定。
----静态语义一般包括声明和类型的匹配,类型的转换。
----通过语义分析后,语法分析生成的语法树的表达式都被标识了类型,若是有些类型须要隐式转换,语义分析程序会在语法树中插入相应的转换节点。
四、源代码优化器对源代码进行优化,但直接在语法树上做优化比较困难,每每是将整个语法树转换成中间代码进行优化。
中间代码使得编译器分为前端和后端:前端负责产生机器无关的中间代码;后端负责将中间代码转换成目标机器代码。
五、目标代码优化器将上述生成的目标机器代码进行优化,好比选择合适的寻址方式、使用位移代替乘法运算、删除多余的指令等。
编译器忙活了半天,可生成的目标代码中,咱们还不知道函数访问所要的目标函数的地址,变量访问所要的目标变量的地址,这可咋办呢??
其实目标函数访问也好,变量访问也好,这均可以归结为一种方式,就是所谓的模块间符号的引用。
人们把每一个源代码模块独立地编译,而后按照须要将它们组装起来,这个组装模块的过程就是“连接”。
连接的主要内容就是把各个模块之间相互引用的部分处理好,使得各个模块之间可以正确衔接。
连接过程主要包括地址和空间分配、符号决议和重定位。