ELF 文件结构及静态连接

时间 2020-01-26

原文原文链接

简介

C/C++ 代码在变成可执行文件以前须要经历预处理、编译、汇编以及连接这几个步骤，最终生成的可执行文件包含了可以被系统处理的机器码。可执行文件必须按照特定的格式进行组织才能被系统加载、执行，因此可执行文件是特定于操做系统的。对于 Linux 来讲是 ELF(Executable Linkable Format) 格式的文件，Windows 是 PE(Portable) 格式。对于 Java 代码，编译生成的 Class 文件也是有着特定的格式，才能被 JVM 执行。程序员

一个程序通常由多个文件组成，文件之间会有变量和函数的引用，每一个文件各自编译生成中间文件后必须通过连接才能生成最终的可执行文件。根据连接方式的不一样能够分为静态连接和动态连接，静态连接是在连接期间重定位全部的符号引用，而动态连接则是在装载或者执行期间进行。数组

本文主要分析 Linux 下 ELF 文件的格式以及静态连接的过程。函数

目标文件的格式

源代码被编译生成的文件叫作目标，目标文件与可执行文件的格式是相似的，只是尚未经历连接，其中包含的有些地址尚未被调整。spa

目标文件中包含机器码、数据、符号表以及调试信息等，这些属性按照不一样的段（Section ）进行存储。段就是必定长度的的区域，不一样的属性放在不一样名字的段，具体以下所示：操作系统

能够看出，代码放在了名为 .text 的段，变量 global_init_var 和 static_var 放在了名为 .data 的段，变量 global_uninit_var 和 static_var 放在名为 .bss 的段。.bss 段存放的是未初始化的全局变量和局部静态变量。3d

上图的 EFL 文件除了几个段，还有文件头(File Header)，其中包含了文件是否可执行、是静态连接仍是动态连接以及目标硬件、操做系统等信息，还包括一个段表，段表是一个数组结构，描述了文件中各个段在文件中的偏移位置及段的属性等。用 readelf -h 能够读取上面代码编译后目标文件的头信息，以下图：调试

从上图能够看到，其中包含了文件的魔数(Magic) 、字长(class)、CPU 类型等信息，若是是可执行文件，还包括程序的入口地址。Start of section headers 的值是段表的偏移量。code

目标文件中除了上面介绍的代码段和数据段，还有不少其它段，readelf -S 命令能够查看段表的信息，以下图：orm

能够看出，上面的目标文件总共有 12 个段，第一个为无效段，其实是 11 个段。其中有字符串表 .strtab、符号表 .symtab 以及注释信息 .comment 等。还有一个段是 .rela.txt 段，这个是重定位表，在静态连接过程当中须要用到。blog

静态连接

在了解了 ELF 文件的结构以后，接下来介绍静态连接的过程。如下面的代码为例：

/* a.c */
extern int shared;

int main()
{
        int a = 100;
        swap(&a, &shared);
}

/* b.c */
int shared = 1;

void swap(int *a, int *b)
{
        *a ^= *b ^= *a ^= *b;
}

在上面的代码中，b.c 定义了全局符号，分别是变量 shared 和函数 swap，a.c 定义了一个全局符号 main。在 a.c 中引用了 b.c 里面的 shared 和 swap。用 gcc -c -fno-stack-protector a.c b.c 编译这两个文件以后（-fno-stack-protector 是关闭堆栈保护功能），生成了两个目标文件 a.o 和 b.o，下一步就是要把这两个文件连接在一块儿，造成最终的可执行文件。

空间与地址分配

静态连接的第一步是把多个目标文件进行合并，通常采用类似段合并的方式。经过扫描全部的输入目标文件，而且得到它们各个段的长度、属性和位置，而且将输入目标文件中的符号表中全部的符号定义和符号引用收集起来，统一放到一个全局符号表。多个目标文件合并后以下图所示：

符号地址的肯定

利用上一步收集到的数据，进行符号解析与重定位、调整代码中的地址等。利用命令 ld a.o b.o -e main -o ab 将 a.o 和 b.o 连接（-e main 是将 main 函数做为程序的入口)，生成可执行文件 ab。连接先后段的地址信息以下所示：

上图是 a.o、b.o 以及连接后的 ab 的地址信息。其中 Size 是段的大小， VMA 是虚拟地址。对于 a.o 和 b.o 的 .text 段来讲，大小分别是 0000002c 和 0000004b，加起来正好是 ab 的 .text 段的大小 00000077。另外， a.o 和 b.o 的 VMA 都是 00000000，此时它们尚未分配地址，而在 ab 中，地址变为 00000000004000e8，这就是分配的虚拟地址，当 ab 被加载到内存中后， .text 段的起始地址即是这个。

段的地址被肯定后，内部函数和变量的地址也就肯定了，由于在每一个段内，符号的表示是一个相对于段起始位置的偏移量。当段的起始位置被肯定后，每一个符号只要在偏移量的基础上加上这个起始位置的地址就行。可是对于引用的外部符号来讲，它们的地址还不得知，须要通过符号解析和重定位的过程。

符号解析与重定位

在 a.c 中引用了变量 shared 和函数 swap ，单独编译 a.c 的时候并不知道 b.c 这个文件，因此在 a.o 中，用到 shared 的地方用 0 地址代替，等到连接阶段，可以肯定这个变量的地址了，再把地址进行调整。

这里的问题是连接器如何知道哪些指令须要被调整呢？这就用到上面提到过的重定位表，命令 objdump -r a.o 能够查看 a.o 中的重定位表，以下图：

每个须要被重定位的地方叫作一个重定位入口，能够看到，a.o 中须要重定位的两个符号 shared 和 swap。将重定位入口的地址进行修正，才能完成连接过程，最终生成的可执行文件即可以被系统正常运行。

总结

代码从文本形式到最终的可执行文件须要经历多个过程，其中连接主要作的是多个目标文件的合并以及符号的解析与重定位，最终生成特定格式的可执行文件。本文大概地介绍了 ELF 文件的结构和静态连接的主要步骤，更详细的内容能够查看相关书籍深刻了解。

参考

《程序员的自我修养：连接、装载与库》
《深刻理解计算机系统》

若是个人文章对您有帮助，不妨点个赞支持一下(^_^)