前几天看了《程序员的自我修养——连接、装载与库》中的第二章“编译和连接”,主要根据其中的内容简单总结一下C程序编译的过程吧。html
我如今通常都是用gcc,因此天然以GCC编译hellworld为例,简单总结以下。
前端
hello.c源代码以下:linux
1 2 3 4 5 6 |
#include <stdio.h> int main() { printf(“Hello, world.\n”); return 0; } |
一般咱们使用gcc来生成可执行程序,命令为:gcc hello.c,默认生成可执行文件a.out程序员
其实编译(包括连接)的命令:gcc hello.c 可分解为以下4个大的步骤:ubuntu
1. 预处理(Preproceessing)ide
预处理的过程主要处理包括如下过程:工具
一般使用如下命令来进行预处理:优化
gcc -E hello.c -o hello.ispa
参数-E表示只进行预处理 或者也可使用如下指令完成预处理过程
cpp hello.c > hello.i /* cpp – The C Preprocessor */
直接cat hello.i 你就能够看到预处理后的代码
2. 编译(Compilation)
编译过程就是把预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。
$gcc –S hello.i –o hello.s
或者
$ /usr/lib/gcc/i486-linux-gnu/4.4/cc1 hello.c
注:如今版本的GCC把预处理和编译两个步骤合成一个步骤,用cc1工具来完成。gcc实际上是后台程序的一些包装,根据不一样参数去调用其余的实际处理程序,好比:预编译编译程序cc一、汇编器as、链接器ld
能够看到编译后的汇编代码(hello.s)以下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
.file "hello.c" .section .rodata .LC0: .string "Hello, world." .text .globl main .type main, @function main: pushl %ebp movl %esp, %ebp andl $-16, %esp subl $16, %esp movl $.LC0, (%esp) call puts movl $0, %eax leave ret .size main, .-main .ident "GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3" .section .note.GNU-stack,"",@progbits |
3. 汇编(Assembly)
汇编器是将汇编代码转变成机器能够执行的命令,每个汇编语句几乎都对应一条机器指令。汇编相对于编译过程比较简单,根据汇编指令和机器指令的对照表一一翻译便可。
$ gcc –c hello.c –o hello.o
或者
$ as hello.s –o hello.co
因为hello.o的内容为机器码,不能以普通文本形式的查看(vi 打开看到的是乱码)。
4. 连接(Linking)
经过调用连接器ld来连接程序运行须要的一大堆目标文件,以及所依赖的其它库文件,最后生成可执行文件。
ld -static crt1.o crti.o crtbeginT.o hello.o -start-group -lgcc -lgcc_eh -lc-end-group crtend.o crtn.o (省略了文件的路径名)。
helloworld的大致编译和连接过程就是这样了,那么编译器和连接器到底作了什么呢?
编译过程可分为6步:扫描(词法分析)、语法分析、语义分析、源代码优化、代码生成、目标代码优化。
词法分析:扫描器(Scanner)将源代的字符序列分割成一系列的记号(Token)。lex工具可实现词法扫描。
语法分析:语法分析器将记号(Token)产生语法树(Syntax Tree)。yacc工具可实现语法分析(yacc: Yet Another Compiler Compiler)。
语义分析:静态语义(在编译器能够肯定的语义)、动态语义(只能在运行期才能肯定的语义)。
源代码优化:源代码优化器(Source Code Optimizer),将整个语法书转化为中间代码(Intermediate Code)(中间代码是与目标机器和运行环境无关的)。中间代码使得编译器被分为前端和后端。编译器前端负责产生机器无关的中间代码;编译器后端将中间代码转化为目标机器代码。
目标代码生成:代码生成器(Code Generator).
目标代码优化:目标代码优化器(Target Code Optimizer)。
连接的主要内容是把各个模块之间相互引用的部分处理好,使得各个模块之间可以正确地衔接。
连接的主要过程包括:地址和空间分配(Address and Storage Allocation),符号决议(Symbol Resolution),重定位(Relocation)等。
连接分为静态连接和动态连接。
静态连接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。
而动态连接则是指连接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
静态连接的大体过程以下图所示: