栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C#

GCC的编译过程以及其同盟成员和ELF文件的分析

C/C++/C# 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

GCC的编译过程以及其同盟成员和ELF文件的分析

文章目录
  • 一、GCC的同盟成员介绍
    • 1.GCC的介绍
    • 2.同盟成员之Binutils
    • 3.同盟成员之C 运行库
  • 二、GCC的详细编译过程
    • 1.编译的简介
    • 2.预处理(Preprocessing)
    • 3.编译为汇编代码(Compilation)
    • 4.汇编(Assembly)
    • 5.链接(linking)
    • 6.补充部分
      • (1) 多个程序文件的编译
      • (2)检错
      • (3)库文件连接
  • 三、ELF文件的分析
    • 补充内容:反汇编
  • 四、总结
  • 五、参考资料

一、GCC的同盟成员介绍 1.GCC的介绍
  • GCC:GCC(GNU C Compiler)是编译工具。经过了这么多年的发展,GCC 已经不仅仅能支持 C 语言;它现在还支持 Ada 语言、C++ 语言、Java 语言、Objective C 语言、Pascal 语言、COBOL语言,以及支持函数式编程和逻辑编程的 Mercury 语言,等等。而 GCC 也不再单只是 GNU C 语 言编译器的意思了,而是变成了
  • GNU Compiler Collection 也即是 GNU 编译器家族的意思了。另 一方面,说到 GCC对于操作系统平台及硬件平台支持,概括起来就是一句话:无所不在。
2.同盟成员之Binutils
  • Binutils:Binutils是一组二进制程序处理工具,包括:addr2line、ar、objcopy、objdump、as、ld、ldd、readelf、 size 等。这 一组工具是开发和调试不可缺少的工具
工具名称作用
addr2line程序地址转换成其所对应的程序源文件及所对应的代码行,可以得到所对应的函数,帮助调试器在调试的过程中定位对应的源代码位置
as主要用于汇编
ld主要用于链接
ar主要用于创建静态库
ldd用于查看一个可执行程序依赖的共享库
objcopy将一种对象文件翻译成另一种格式
objdump主要的作用是反汇编
readelf显示有关 ELF 文件的信息
size列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总小等
3.同盟成员之C 运行库
  • C语言标准主要由两部分组成:一部分描述C的语法,另一部分描述C标准库。C标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的printf函数便是一个C标准库函数,其原型定义在stdio头文件中。
  • C语言标准仅仅定义了C标准库函数原型,并没有提供实现。因此,C语言编译器通常需要一个C运行时库(C Run Time Libray,CRT)的支持。C运行时库又常简称为C运行库。与C语言类似,C++也定义了自己的标准,同时提供相关支持库,称为C++运行时库。
二、GCC的详细编译过程 1.编译的简介
  • 对于一个程序,一步到位的编译指令是:
    gcc test.c -o test
    实质上,上述编译过程是分为四个阶段进行的,即预处理(也称预编译,Preprocessing)、编译 (Compilation)、汇编(Assembly)和连接(linking)。
  • 为了方便分析编译的过程,特举例说明,首先创建工作目录名为test4,然后创建一个名为test.c的文件,并写入如下代码:
#include 
int main(void)
{
printf("Hello World!n");
return 0;
}

(若不会创建工作目录和文件,可参考博客:在Ubuntu下用gcc生成.a静态库和.so动态库)

2.预处理(Preprocessing)

预处理的过程主要包括以下过程:

  • 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如#if #ifdef #elif #else #endif等。
  • 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释“//”和“”。
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的#pragma 编译器指令,后续编译过程需要使用它们。
  • 指令:gcc -E test.c -o test.i

如图,预处理的结果已经输出到文件test.i中,指令中gcc 的-E 选项,可以让编译器在预处理后停止,并输出预处理结果。

3.编译为汇编代码(Compilation)

编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。

  • 在预处理之后,可直接对生成的test.i文件编译,生成汇编代码
  • 指令:gcc -S test.i -o test.s

gcc 的-S 选项,表示在程序编译期间,在生成汇编代码后,停止,-o 输出汇编代码文件。

4.汇编(Assembly)
  • 汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器—as,根据汇编指令和处理器指令的对照表一一翻译即可。
  • 当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成.o目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。
  • 指令:gcc -c test.s -o test.o或者as -c hello.s -o hello.o
5.链接(linking)

链接也分为静态链接和动态链接,其要点如下:

  • 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来和重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
  • 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
  • 对于上一小节中生成的test.o,将其与C标准输入输出库进行连接,最终生成程序test
  • 指令:gcc test.o -o test
  • 现在执行test,验证编译过程是否正确
  • 指令:./test
6.补充部分 (1) 多个程序文件的编译

通常整个程序是由多个源文件组成的,相应地也就形成了多个编译单元,使用 GCC 能够很好地管理 这些编译单元。

  • 例如:
    假设有一个由 test1.c 和 test2.c 两个源文件组成的程序,为了对它们进行编译,并最终生成可执行程序 test,可以使用指令:gcc test1.c test2.c -o test
  • 如果同时处理的文件不止一个,GCC 仍然会按照预处理、编译和链接的过程依次进行。如果深究起来,上面这条命令大致相当于依次执行三条命令:
    gcc -c test1.c -o test1.o
    gcc -c test2.c -otest2.o
    gcc test1.o test2.o -o test
(2)检错

gcc -pedantic illcode.c -o illcode -pedantic

  • 编译选项并不能保证被编译程序与 ANSI/ISO C 标准的完全兼容,它仅仅只能用来帮助Linux 程序员离这个目标越来越近。或者换句话说,-pedantic 选项能够帮助程序员发现一些不符合ANSI/ISO C 标准的代码,但不是全部,事实上只有ANSI/ISO C 语言标准中要求进行编译器诊断的那些情况,才有可能被 GCC 发现并提出警告。
  • 除了-pedantic 之外,GCC 还有一些其它编译选项也能够产生有用的警告信息。这些选项大多以-W开头,其中最有价值的当数-Wall 了,使用它能够使 GCC 产生尽可能多的警告信息。

gcc -Wall illcode.c -o illcode

  • GCC 给出的警告信息虽然从严格意义上说不能算作错误,但却很可能成为错误的栖身之所。一个优秀的 Linux 程序员应该尽量避免产生警告信息,使自己的代码始终保持标准、健壮的特性。所以将警告信息当成编码错误来对待,是一种值得赞扬的行为!所以,在编译程序时带上-Werror 选项,那么 GCC 会在所有产生警告的地方停止编译,迫使程序员对自己的代码进行修改。

gcc -Werror test.c -o test

(3)库文件连接
  • 开发软件时,完全不使用第三方函数库的情况是比较少见的,通常来讲都需要借助许多函数库的支持才能够完成相应的功能。从程序员的角度看,函数库实际上就是一些头文件(.h)和库文件(so、或 lib、dll)的集合。
  • 虽然 Linux 下的大多数函数都默认将头文件到/usr/include/目录下,而库文件则放到/usr/lib/目录下;Windows 所使用的库文件主要放在 Visual Stido 的目录下的 include 和 lib,以及系统文件夹下。但也有的时候,我们要用的库不再这些目录下,所以 GCC 在编译时必须用自己的办法来查找所需要的头文件和库文件。
三、ELF文件的分析

ELF是一种用于二进制文件、可执行文件、目标代码、共享库和核心转储的标准文件格式。
ELF标准的目的是为软件开发人员提供一组二进制接口定义,这些接口可延伸到多种操作系统中,从而减少重新编码、编译程序的需要。
ELF指的是一种文件格式,常用的扩展名为:o,so,elf,prx

  • 一个典型的 ELF 文件包含下面几个段:
名称含义
.text已编译程序的指令代码段
.rodataro 代表 read only,即只读数据(譬如常数 const)
.data已初始化的 C 程序全局变量和静态局部变量
.bss未初始化的 C 程序全局变量和静态局部变量
.debug调试符号表,调试器用此段的信息帮助调试
  • 可以使用 readelf -S 查看其各个 section 的信息,如图
  • 指令: readelf -S test
补充内容:反汇编

由于ELF文件无法被当做普通文本文件打开,如果希望直接查看一个ELF文件包含的指令和数据,使用 objdump -D 对其进行反汇编。

  • 指令: objdump -D test
四、总结

本文主要阐述了gcc编译的预处理、编译 、汇编和连接四个过程,介绍了四个过程的操作指令和对应的结果,使得读者能更清楚的了解编译的过程。补充阐述了多文件编译,检错,库文件连接,使读者对这三个内容有更深的了解。通过对ELF文件的分析,解释了汇编和反汇编,它们的操作指令以及其结果。希望本文能给各位读者提供帮助,若本文有错误的地方,请大佬斧正。

五、参考资料

ELF介绍
Linux GCC常用命令
GCC 编译器背后的故事

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/316144.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号