代码是如何编译成程序的?

这段程序应该是码农的入门曲:javascript

#include<stdio.h>int main(void){printf("Hello,World!\n");return 0;}


我想大部分人都能闭着眼睛敲出来,连鼠标都不用移动。编译连接,运行结果以下:css

$gcc -o hello hello.c$./helloHello World!


很好,C语言基础很扎实😄。咱们这里来分析一下这几行敲下gcc这一行命令以后到底发生了什么(Shell的运行机制下回探讨),来看看C语言翻译为机器码,看看可执行文件里都有哪些东东。java

上面GCC的构建过程分为4个步骤,分别是预处理、编译、汇编和连接,以下图所示:shell

             

             

预编译swift

首先是对源文件hello.c中的预处理指令即#开头的指令,如#include、#define等进行展开替换删除等处理,被预编译成一个.i文件。预处理过程至关于以下编译命令:bash

$gcc -E -o hello.i hello.c


预处理完成以后,注释内容被删除,宏定义会被展开。微信

编译函数

预处理以后就须要对生成的预处理文件进行词法分析,语法分析,语义分析及优化后生成相应的汇编代码文件,也就是将高级语言翻译成机器码的最核心的部分。咱们能够经过命令:工具

gcc -S -o hello.s hello.c


将源文件编译成汇编代码。优化

汇编

汇编是将汇编代码翻译成可执行的指令,每一条汇编语句基本对应一条机器指令,所以汇编器相对编译器较为简单,只须要按照汇编指令和机器指令的对照表进行一一翻译,这也是“汇编”一词的由来。能够用下面的命令得到汇编后的目标文件:

gcc -o hello.o -c hello.c


上述命令至关于:

as hello.s -o hello.o


目标文件格式跟可执行文件同样,都属于ELF文件。Linux系统下ELF类型文件还包括核心转储文件(core dump)、动态连接库(.so文件)。ELF文件包括文件头、代码段、数据段和.bss段(未初始化的全局变量),使用命令:objdump -h hello.o 能够查看目标文件的主要段,能够看到hello.o的代码段和数据段。

使用objdump -d hello.o命令查看目标文件hello.o的内容以下:

其中:

18: e8 00 00 00 00 callq 0 <_main+0x1d> 表示对函数printf的引用


能够看到,编译阶段,printf函数在外部定义,未定义函数printf的调用地址为0。这里啰嗦下,objdump是个很好用的工具,对于初学编译原理颇有用。

连接

连接是将各个目标文件所须要的代码块收集在一块儿,生成最终的可执行文件。咱们的helloworld里面调用了printf函数,可是并无它的实现,其实如今libc.so(动态库)或者libc.a(静态库)中。所谓的库就是将一些比较经常使用的函数实现编译成目标文件并打包,所以咱们使用ar命令就能够将库拆分红目标文件:

$ar -t libc.ainit-first.olibc-start.osysdep.oversion.ocheck_fds.olibc-tls.oelf-init.odso_handle.oerrno.oinit-arch.oerrno-loc.ohp-timing.oiconv_open.oiconv.oiconv_close.ogconv_db.o…………


查看连接后可执行文件hello的内容:

其中:

100000f78: e8 0d 00 00 00 callq 13 <dyld_stub_binder+0x100000f8a>


能够看到代码段调用地址已被赋值。我这里使用的iOS系统,实现与Linux略有不一样,dyld_stub_binder 会在目标符号(例如 printf)被调用时,将其连接到指定的动态连接库 libSystem,再调用printf函数,printf符号位于在data段的lazy符号表中可获取。

 

静态连接过程包括:

  • 空间与地址分配符号解析和重定位静态库连接

下面一一讲解。

空间地址的分配

刚才讲了,连接过程就是将多个目标加工后合并成一个可执行文件,对于有多个目标文件的连接状况,存在两种地址空间分配策略:按序叠加和类似段合并。

按序叠加很好理解,就是直接合并:

直接合并会形成一个问题,就是可执行文件会有不少零散的段,而每一个段都须要地址和空间对齐,如x86硬件下对齐单位是页,也就是4096字节,零散段会形成空间浪费。

       类似段合并就是将相同性质的段合并到一块儿:

这里.bss段存放的是未初始化的全局变量,由于没有内容,所以不占用文件空间只占用虚拟地址空间,即进程空间,参见:

进程是如何使用内存的?

符号解析和指令的修正

       ELF文件中定义了一个重定位表段,里面定义了须要在连接阶段进行重定位的符号。hello.c编译成hello.o文件后,里面的printf函数并无在hello.o中实现,所以会放在重定位段中。连接的时候,会在全部的.o文件中查找未定义符号表,并将符号定义的首地址相对引用地址求得偏移值后填入引用处。好比咱们在main函数中引用的printf函数,编译阶段地址为0,连接阶段会填上0x2004。

若是存在未找到的符号,链接失败编译器报错,就是咱们常常见到的:

undefined reference to "XXXX"


刚才咱们看到libc.a文件打散以后是一堆.o文件,就包括printf.o文件,里面定义了printf函数的实现。通过迭代查找,设置好程序入口,连接工做就完成了。

       连接过程比较复杂,包括绝对地址重定位和C++中重复代码处理等等,须要在项目中试错理解,后续有空再续写。


本文分享自微信公众号 - 机械猿(on_ourway)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索