Linux下可執(zhí)行文件格式詳解
Linux下面,目標(biāo)文件、共享對象文件、可執(zhí)行文件都是使用ELF文件格式來存儲(chǔ)的。程序經(jīng)過編譯之后會(huì)輸出目標(biāo)文件,然后經(jīng)過鏈接可以產(chǎn)生可執(zhí)行文件或者共享對象文件。linux下面使用的ELF文件和Windows操作系統(tǒng)使用的PE文件都是從Unix系統(tǒng)的COFF文件格式演化來的。
我們先來了解一些基本的想法。
首先,最重要的思路是一個(gè)程序從人能讀懂的格式轉(zhuǎn)換為供操作系統(tǒng)執(zhí)行的二進(jìn)制格式之后,代碼和數(shù)據(jù)是分開存放的,之所以這樣設(shè)計(jì)有這么幾個(gè)原因:
1、程序執(zhí)行之后,代碼和數(shù)據(jù)可以被映射到不同屬性的虛擬內(nèi)存中。因?yàn)榇a一般是只讀的,而數(shù)據(jù)是可讀可寫的;
2、現(xiàn)代CPU有強(qiáng)大的緩存體系。程序和代碼分離可以提高程序的局部性,增加緩存命中的概率;
3、還有最重要的一個(gè)原因是當(dāng)有多個(gè)程序副本在運(yùn)行的時(shí)候,只讀部分可以只在內(nèi)存中保留一份,這樣大大節(jié)省了內(nèi)存。
在ELF的定義中,把他們分開存放的地方稱為一個(gè) Section ,就是一個(gè)段。
一個(gè)ELF文件中重要的段包括:
.text 段:存儲(chǔ) 只讀程序
.data 段:存儲(chǔ) 已經(jīng)初始化的全局變量和靜態(tài)變量
.bss 段:存儲(chǔ) 未初始化的全局變量和靜態(tài)變量,因?yàn)檫@些變量的值為0,所以這個(gè)段在文件當(dāng)中不占據(jù)空間
.rodata 段:存儲(chǔ) 只讀數(shù)據(jù),比如字符串常量
我們用一個(gè)例子來看一下ELF文件的格式到底是什么。首先,在Linux下編寫一個(gè)C程序:SimpleSection.c
[cpp] view plain copy int printf(const char *format, ... );
int global_init_var = 16;
int global_unint_var;
void func1 (int );
int main()
{
static int static_var = -32;
static int static_var_uninit;
int a = 1;
int b;
func1(static_var + global_init_var + a + b);
return a;
}
void func1 (int i)
{
printf("%d\n", i);
}
然后,產(chǎn)生目標(biāo)文件:
[cpp] view plain copy [root@xuxingwang-centos Program]# gcc -c SimpleSection.c
[root@xuxingwang-centos Program]# file SimpleSection.o
SimpleSection.o: ELF 32-bit LSB relocatable, Intel 80386, version 1 (SYSV), not stripped
file命令的結(jié)果也告訴我們,這是一個(gè)32位ELF的文件,類型是 relocatable ,就是可重定位。所以目標(biāo)文件又叫做可重定位文件。
elf文件的最開始是elf文件頭信息,32位有52個(gè)字節(jié)組成。我們可以使用 readelf 工具來查看一下:
[cpp] view plain copy [root@xuxingwang-centos Program]# readelf -h SimpleSection.o
ELF Header:
Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00
Class: ELF32
Data: 2's complement, little endian
Version: 1 (current)
OS/ABI: UNIX - System V
ABI Version: 0
Type: REL (Relocatable file)
Machine: Intel 80386
Version: 0x1
Entry point address: 0x0
Start of program headers: 0 (bytes into file)
Start of section headers: 224 (bytes into file)
Flags: 0x0
Size of this header: 52 (bytes)
Size of program headers: 0 (bytes)
Number of program headers: 0
Size of section headers: 40 (bytes)
Number of section headers: 11
Section header string table index: 8
Entry point address 指的是程序入口地址,如果是可執(zhí)行文件,這個(gè)字段會(huì)有值;
他之前的字段是一些說明字段;
Start of program headers 指的是 程序頭表 的起始位置。程序頭表 是從裝載視圖的角度對elf的各個(gè)段進(jìn)行的分類信息;結(jié)構(gòu)和段表相似;
Start of section headers 指出了elf除文件頭以外的最重要的信息:段表 的起始位置。段表包含了各個(gè)段的名稱、屬性、大小、位置等重要信息。操作系統(tǒng)首先找到段表,然后根據(jù)段表的信息去找到各個(gè)段。段表是一個(gè)類似數(shù)組的結(jié)構(gòu),一個(gè)段的信息是這個(gè)數(shù)組的一個(gè)元素。
Size of this header 指的是頭文件大小,32位都是 52 個(gè)字節(jié),0x34個(gè)字節(jié)。
Size of program headers 指的是每個(gè) 程序頭表 的大小。
Number of program headers 指的是 程序頭表 的數(shù)目。
Size of sections headers 指的是每個(gè) 段表 的大小;
Number of section headers 指的是 段表的數(shù)量;
Section header string table index 指出了段表當(dāng)中用到的字符串表在段表中的下標(biāo)。
文件頭之后,緊跟著的是 程序頭,因?yàn)槟繕?biāo)文件沒有鏈接,所以沒有裝載信息。我們這里可以先不理會(huì)這個(gè)東西,以后專門再說他。
程序頭之后就是各個(gè)段的數(shù)據(jù),我們用工具查看一下:
[cpp] view plain copy [root@xuxingwang-centos Program]# readelf -S SimpleSection.o
There are 11 section headers, starting at offset 0xe0:
Section Headers:
[Nr] Name Type Addr Off Size ES Flg Lk Inf Al
[ 0] NULL 00000000 000000 000000 00 0 0 0
[ 1] .text PROGBITS 00000000 000034 000020 00 AX 0 0 4
[ 2] .rel.text REL 00000000 0003f4 000010 08 9 1 4
[ 3] .data PROGBITS 00000000 000054 000008 00 WA 0 0 4
[ 4] .bss NOBITS 00000000 00005c 000004 00 WA 0 0 4
[ 5] .rodata PROGBITS 00000000 00005c 000004 00 A 0 0 1
[ 6] .comment PROGBITS 00000000 000060 00002d 01 MS 0 0 1
[ 7] .note.GNU-stack PROGBITS 00000000 00008d 000000 00 0 0 1
[ 8] .shstrtab STRTAB 00000000 00008d 000051 00 0 0 1
[ 9] .symtab SYMTAB 00000000 000298 0000f0 10 10 10 4
[10] .strtab STRTAB 00000000 000388 00006b 00 0 0 1
Key to Flags:
W (write), A (alloc), X (execute), M (merge), S (strings)
I (info), L (link order), G (group), x (unknown)
O (extra OS processing required) o (OS specific), p (processor specific)
各個(gè)字段意思依次是:段序號、段名稱、段類型、段虛擬地址、偏移量、大小、ES、標(biāo)志、Lk、Inf、對齊。
沒有解釋的列可以先不考慮,我們先關(guān)注其他幾個(gè)列。
第0個(gè)段是為了讀取的時(shí)候下標(biāo)不用減1。
緊跟著的就是代碼段,偏移量為0x34,就是說在文件頭結(jié)尾之后馬上就是代碼段;
代碼段之后,偏移量 0x54 的地方就是 數(shù)據(jù)段,占8個(gè)字節(jié),就是程序中已經(jīng)被賦值的一個(gè)全局變量和一個(gè)靜態(tài)變量;
緊接著是.bss段,這里只存儲(chǔ)了一個(gè)static變量,因?yàn)?未初始化的那個(gè)全局變量被一種優(yōu)化機(jī)制存儲(chǔ)到了 .common 段,這里可以不做理會(huì);
然后是只讀數(shù)據(jù)段.rodata,這里存儲(chǔ)的是 printf 里面的 %d\n 這三個(gè)字符,外加結(jié)束符\0,總共4個(gè)字節(jié)的空間
我們根據(jù)Size這一列來算一下這些段總共占據(jù)的空間,(.bss由于不占空間,不用算進(jìn)來):
.text 0x20
.data 0x8
.rodata 0x4
.comment 0x2d
.shstrtab 0x51
.rel.text 0x10
.symtab 0xf0
.strtab 0x6b
這里的每一個(gè)段都有一個(gè)段表元素來描述,總共11個(gè)。從頭文件得知,每個(gè)元素的大小為40字節(jié)。也就是說段表總共占了 0x1b8 個(gè)字節(jié)的空間。而且段表的開始地址由于內(nèi)存對齊需要,中間空了2個(gè)字節(jié)。因?yàn)槎伪淼拈_始地址是第224個(gè)字節(jié);
.rel.text 的開始地址也由于內(nèi)存對齊的要求,補(bǔ)了一個(gè)空字節(jié)。