gcc编译过程

时间 2019-11-20

标签 gcc 编译过程栏目 GCC 繁體版

原文原文链接

gcc的编译流程分为四个步骤，分别为：
・预处理（Pre-Processing）
・编译（Compiling）
・汇编（Assembling）
・连接（Linking）
以hello.c为例子，在这四个步骤中能够设置选项分别生成hello.i, hello.s, hello.o以及最终的hello文件：
hello.c : 最初的源代码文件；
hello.i : 通过编译预处理的源代码；
hello.s : 汇编处理后的汇编代码；
hello.o : 编译后的目标文件，即含有最终编译出的机器码，但它里面所引用的其余文件中函数的内存位置还没有定义。
hello / a.out : 最终的可执行文件
(还有.a(静态库文件), .so(动态库文件), .s(汇编源文件)留待之后讨论)

下面就具体来查看一下gcc是如何完成四个步骤的。

hello.c源代码

#include<stdio.h>
int main()
{
printf("Hello World!\n");
return 0;
}

（1）预处理阶段

在该阶段，编译器将上述代码中的stdio.h编译进来，而且 用户能够使用gcc的选项”-E”进行查看，该选项的做用是让gcc在预处理结束后中止编译过程。

《深刻理解计算机系统》中是这么说的：
预处理器（cpp）根据以字符#开头的命令（directives），修改原始的C程序。如 hello.c中#include <stdio.h>指令告诉预处理器读系统头文件stdio.h的内容，并把它直接插入到程序文本中去。结果就获得另一个C程序，一般是以.i做为文件扩展名的。

注意：
Gcc指令的通常格式为：Gcc [选项] 要编译的文件 [选项] [目标文件]
其中，目标文件可缺省，Gcc默认生成可执行的文件名为：编译文件.out

[gan @localhost gcc]# gcc �E hello.c �o hello.i
选项”-o”是指目标文件， ”.i”文件为已通过预处理的C原始程序。如下列出了hello.i文件的部份内容：

typedef int (*__gconv_trans_fct) (struct __gconv_step *,
struct __gconv_step_data *, void *,
__const unsigned char *,
__const unsigned char **,
__const unsigned char *, unsigned char **,
size_t *);

…

# 2 "hello.c" 2

int main()
{
printf("Hello World!\n");
return 0;
}

因而可知，gcc确实进行了预处理，它把”stdio.h”的内容插入到hello.i文件中。

（2）编译阶段

接下来进行的是编译阶段，在这个阶段中，Gcc首先要检查代码的规范性、是否有语法错误等，以肯定代码的实际要作的工做，在检查无误后，Gcc把代码翻译成汇编语言。用户能够使用”-S”选项来进行查看，该选项只进行编译而不进行汇编，生成汇编代码。汇编语言是很是有用的，它为不一样高级语言不一样编译器提供了通用的语言。如：C编译器和Fortran编译器产生的输出文件用的都是同样的汇编语言。

[gan @localhost gcc]# gcc �S hello.i �o hello.s
如下列出了hello.s的内容，可见Gcc已经将其转化为汇编了，感兴趣的读者能够分析一下这一行简单的C语言小程序是如何用汇编代码实现的。
.file "hello.c"
.section .rodata
.align 4

.LC0:
.string "Hello World!"
.text
.globl main
.type main, @function
main:
pushl %ebp
movl %esp, %ebp
subl $8, %esp
andl $-16, %esp
movl $0, %eax

addl $15, %eax
addl $15, %eax
shrl $4, %eax
sall $4, %eax
subl %eax, %esp
subl $12, %esp
pushl $.LC0

call puts
addl $16, %esp
movl $0, %eax
leave
ret
.size main, .-main
.ident "GCC: (GNU) 4.0.0 20050519 (Red Hat 4.0.0-8)"
.section .note.GNU-stack,"",@progbits

（3）汇编阶段

汇编阶段是把编译阶段生成的”.s”文件转成目标文件，读者在此可以使用选项”-c”就可看到汇编代码已转化为”.o”的二进制目标代码了。以下所示：
[gan @localhost gcc]# gcc �c hello.s �o hello.o

（4）连接阶段

在成功编译以后，就进入了连接阶段。在这里涉及到一个重要的概念：函数库。

在这个源程序中并无定义”printf”的函数实现，且在预编译中包含进的”stdio.h”中也只有该函数的声明，而没有定义函数的实现，那么，是在哪里实现”printf”函数的呢？最后的答案是：系统把这些函数实现都被作到名为libc.so.6的库文件中去了，在没有特别指定时，gcc 会到系统默认的搜索路径 ”/usr/lib”下进行查找，也就是连接到libc.so.6库函数中去，这样就能实现函数”printf” 了，而这也就是连接的做用。

函数库通常分为静态库和动态库两种。静态库是指编译连接时，把库文件的代码所有加入到可执行文件中，所以生成的文件比较大，但在运行时也就再也不须要库文件了。 其后缀名通常为”.a”。动态库与之相反，在编译连接时并无把库文件的代码加入到可执行文件中，而是在程序执行时由运行时连接文件加载库，这样能够节省系统的开销。动态库通常后缀名为”.so”，如前面所述的libc.so.6就是动态库。gcc在编译时默认使用动态库。
（Linux下动态库文件的扩展名为".so"（Shared Object）。按照约定，全部动态库文件名的形式是libname.so（可能在名字中加入版本号）。这样，线程函数库被称做 libthread.so。静态库的文件名形式是libname.a。 共享archive的文件名形式是libname.sa。共享archive只是一种过渡形式，帮助人们从静态库转变到动态库。）
完成了连接以后，gcc就能够生成可执行文件，以下所示。

[gan@localhost gcc]# gcc hello.o �o hello

运行该可执行文件，出现正确的结果以下。 [root@localhost Gcc]# ./hello Hello World!