C++编译过程

C++编译过程

一般的C++程序在编译过程中需要进行如下四步:

预处理(Preprocessing)
预处理用于将所有的#include头文件以及宏定义替换成其真正的内容,预处理之后得到的仍然是文本文件,但文件体积会大很多

1
gcc -E -I./inc test.c -o test.i

上述命令中-E是让编译器在预处理之后就退出,不进行后续编译过程;-I指定头文件目录,这里指定的是我们自定义的头文件目录;-o指定输出文件名。
编译(Compilation)
编译不是指程序从源文件到二进制程序的全部过程,而是指将经过预处理之后的程序转换成特定汇编代码(assembly code)的过程。编译的指定如下:

1
gcc -S -I./inc test.c -o test.s

上述命令中-S让编译器在编译之后停止,不进行后续过程。编译过程完成后,将生成程序的汇编代码test.s,这也是文本文件,内容如下:
汇编(Assemble)
汇编过程将上一步的汇编代码转换成机器码,产生的文件叫做目标文件,是二进制格式。gcc汇编过程通过as命令完成:

1
as test.s -o test.o

等价于

1
gcc -c test.s -o test.o

链接(Linking)
链接过程将多个目标文件以及所需的库文件(.so等)链接成最终的可执行文件

1
ld -o test.out test.o inc/mymath.o ...libraries...

为啥是a.out ?

如果你编写完hello.cpp后,直接使用 gcc hello.c进行编译,你会得到一个a.out程序。
那是由于a.out是”assembler output”的缩写格式,代表汇编程序输出。在较早版本的类unix系统中,a.out是一种输出格式,用于可执行文件,目标文件和共享库。早期的 PDP-7系统上没有链接器,程序的创建过程是先把所有源文件连接成一个文件,然后进行汇编,产生的汇编程序保存在a.out中。这样a.out是名副其实的汇编输出,但到PDP-11之后,人们为其编写了链接器,程序的创建是先编译然后链接输出保存到a.out中,这时a.out其实已经是链接输出了,但输出的可执行文件仍然延续这个命名习惯。
Unix中的可执行文件用一种特殊的方式加上标签,这样便于系统确认它们的属性。普遍采用的方式是使用独特的数字,这些数字也被称为“神秘”数字。一个例子是,Unix文件系统中的superblock就是用下面的数字做标签:
后来,因为构建a.out的复杂性,a.out格式被现在普遍使用的ELF格式所替代,但输出文件名仍旧是a.out。现在我们看到的a.out只是一个可执行文件,而不再是文件格式。ELF可执行文件的第一个字节是八进制177也就是16进制的7F,紧跟其后的2,3,4字节是ELF三个字母。你可以输入od -c a.out | head查看。

链接(Linking)

最终链接分为 静态链接动态链接
静态链接:代码从其所在的静态链接库中拷贝到最终的可执行程序中,在该程序被执行时,这些代码会被装入到该进程的虚拟地址空间中。
动态链接:代码被放到动态链接库或共享对象的某个目标文件中,链接程序只是在最终的可执行程序中记录了共享对象的名字等一些信息。在程序执行时,动态链接库的全部内容会被映射到运行时相应进行的虚拟地址的空间。

参考文档:
https://www.cnblogs.com/ericling/articles/11736681.html
https://zhidao.baidu.com/question/199934360.html
https://www3.ntu.edu.sg/home/ehchua/programming/cpp/gcc_make.html