Linux下简单C语言小程序的反汇编分析--688IT编程网

Linux下简单C语⾔⼩程序的反汇编分析

韩洋

原创作品转载请注明出处

《Linux内核分析》MOOC课程

写在开始，本⽂为因为参加MOOC相关课程⽽写的作业，如有疏漏，还请指出。

选了⼀门Linux内核分析课程，因为阅读内核代码中或多或少要涉及到At&T汇编代码的阅读，所以这⾥写下⼀个对⼀个简单C命令⾏程序的反汇编分析过程，⼀⽅⾯完成作业，另⼀⽅⾯当作练⼿。下⾯开始：

1、编写我们的C语⾔⼩程序

这⾥我们使⽤简单的例⼦，代码如下：

1 #include <stdio.h>

3int exG(int x)

4 {

5return x + 5;

linux下vim命令6 }

8int exF(int x)

9 {

10return exG(x);

11 }

13int main(void)

14 {

15return exF(10) + 2;

16 }

使⽤vim等编辑器写⼊上述代码，保存到main.c，然后使⽤下⾯命令⽣成汇编源⽂件：

x86系统：

$gcc -S -o main.s main.c

x64系统：

$gcc -m32 -S -o main.s main.c

因为我们这⾥以32位平台为例⼦，所以在x64机器上要加上-m32来使GCC⽣成32位的汇编源⽂件。

2、处理源⽂件

执⾏完上述命令后，当前⽬录下就会有⼀个main.s的⽂件，使⽤vim打开，不需要的链接信息[以"."开头的⾏]，得到如下汇编代码：

1 exG:

2 pushl %ebp

3 movl %esp, %ebp

4 movl 8(%ebp), %eax

5 addl $5, %eax

6 popl %ebp

7 ret

8 exF:

9 pushl %ebp

10 movl %esp, %ebp

11 pushl 8(%ebp)

12 call exG

13 addl $4, %esp

14 leave

15 ret

16 main:

17 pushl %ebp

18 movl %esp, %ebp

19 pushl $10

20 call exF

21 addl $4, %esp

22 addl $2, %eax

23 leave

24 ret

可以看到这个⽂件⾥是GCC帮我们⽣成的汇编代码，这⾥需要说明下AT&T格式和intel格式，这两种格式GCC是都可以⽣成的，如果要⽣成intel格式的汇编代码，只需要加上 -masm=intel选项即可，但是Linux下默认是使⽤AT&T格式来书写汇编代码，Linux Kernel代码中也是AT&T格式，我们要慢慢习惯使⽤AT&T格式书写汇编代码。这⾥最需要注意的AT&T和intel汇编格式不同点是：

AT&T格式的汇编指令是“源操作数在前，⽬的操作数在后”，⽽intel格式是反过来的，即如下：

AT&T格式：movl %eax, %edx

Intel格式：mov edx, eax

表⽰同⼀个意思，即把eax寄存器的内容放⼊edx寄存器。这⾥需要注意的是AT&T格式的movl⾥的l表⽰指令的操作数都是32位，类似的还是有movb，movw，movq，分别表⽰8位，16位和64位的操作数。更具体的AT&T汇编语法请执⾏Google或者查阅相关书籍。

3、汇编代码分析

下⾯开始分析汇编代码，运⾏程序后，C Runtime会在进⾏⼀系列准备⼯作后把我们让eip指向我们的main函数开始执⾏，所以这⾥从main 开始分析：

⾸先进⼊gdb调试环境：

在我们的机器上输⼊如下命令⽣成带有调试信息的elf⽂件，然后进⼊gdb进⾏调试：

$gcc -m32 -g -o main main.c

$gdb main -tui -q

进⼊gdb后，输⼊layout asm切换到反汇编视图，同时在main函数处下断点:

(gdb)layout asm

(gdb)b main

然后我们使⽤

(gdb)si

来逐条指令执⾏并观察寄存器变化情况，如图：

对于main函数：

逐条指令执⾏

(gdb)si

pushl %ebp

movl %esp, %ebp

...

这两条是Prolog，其作⽤包含保存当前的栈环境，以确保函数能正确返回和为当前函数开辟新的栈空间。这两句的执⾏效果是把当前的ebp 值⼊栈，再把ebp⼊栈后的esp中的值放⼊ebp。此时，esp和ebp都指向同⼀个内存地址。

这⾥需要说明的是⼊栈和出栈操作，在intel的x86架构上，栈是从⾼地址向低地址增长，所以：

⼊栈等价于：1、esp先下移留出对应的空间；2、把相应数值放⼊刚刚留出的空间完成⼊栈

出栈等价于：1、从当前esp指向内存取出数值；2、esp向上移动，释放相应空间

此时栈中的情况如下如所⽰：[从这⾥开始，下图中每个空格皆表⽰4字节内存空间]

图1

继续逐条指令执⾏

1 pushl $10

2 call exF

3 addl $4, %esp

4 ....

pushl $10，当前esp先减4，然后把宽度为4直接的数值10放⼊esp当前指向的内存中。

call exF ，函数调⽤指令，⾸先把当前eip的值[当前eip指向第三条指令，即addl $4, %esp]⼊栈，然后跳转到exF函数的第⼀条指令开始执⾏。

此时栈中的情况如下如所⽰：

图2

对于exF函数：

逐条指令执⾏

(gdb)si

1 pushl %ebp

2 movl %esp, %ebp

3 pushl 8(%ebp)

4 call exG

5 addl $4, %esp

6 ....

这⾥前条指令和main函数的头两条指令作⽤相同，保存当前栈环境，为exF函数开辟新的栈空间

pushl 8(%ebp)，该指令把当前ebp中的数值加8后作为内存地址，并把该内存地址指向的内存空间内的数值"10"放⼊栈中。[参考图2可以发现其实就是把调⽤函数是传⼊的参数⼊栈]

call exG，函数调⽤指令，当前eip⼊栈后，跳转到exG函数的第⼀条指令执⾏。

此时栈中的情况如下如所⽰：

图3

对于exG函数：

逐条指令执⾏

(gdb)si

1 pushl %ebp

2 movl %esp, %ebp

3 movl 8(%ebp), %eax

4 addl $5, %eax

5 popl %ebp

6 ret

⾸先依然是函数前⾔(Prolog)，保存栈环境，开辟新的栈空间

此时栈中的情况如下如所⽰：

图4

此时GDB⾥使⽤bt 查看运⾏栈情况如下图：

movl 8(%ebp),%eax 该指令把当前ebp中的数值加8后作为内存地址，并把该内存地址指向的内存空间内的数值“10”放⼊eax寄存器中。[参照图4可以发现就是把调⽤函数是传⼊的参数放⼊eax寄存器]

addl $5, %eax AT&T汇编语⾔中$符号后⾯跟上数字表⽰⼀个⽴即数，这⾥即为把eax中的值加上5，再放回eax，此时eax的值为15.

popl %ebp，从栈中获取旧的esp值，并放⼊ebp寄存器。[这⾥之所以没有再加上⼀条movl %ebp, %esp是因为函数中esp的值并没有改变，依然指向存放旧esp值的内存空间]

ret 等价于pop eip，从当前栈顶，即esp所指内存处获取值，作为eip，然后跳转到eip中存放的地址继续执⾏。

此时栈中情况如图：

图5

到这⾥，函数exG已经返回，其返回值存储在eax寄存器中，即返回值为15

返回到函数exF中

1 ...

2 addl $4, %esp

3 leave

4 ret

程序从上述指令开始继续执⾏，

addl $4, %esp 回收栈空间，栈空间收缩4个字节,

leave，等价于如下两条指令

movl %ebp, %esp

pop %ebp

即函数结语[EpiLog]，释放exF函数使⽤的栈空间，此时栈中情况如图:

图6

再接着是ret指令，该指令执⾏后，函数exF返回，程序回到main函数继续执⾏，此时栈中情况如图：

图7

此时eax中存放的是函数exF的返回值，即15

回到main函数继续执⾏

1 ...

2 addl $4, %esp

3 addl $2, %eax

4 leave

5 ret

addl $4, %esp 栈收缩4个字节，回收栈空间

addl $2, %eax 此时eax中的值是main函数调⽤函数exF的得到的返回值，即15，本条指令将eax中的值加2后放回eax，执⾏后eax中的值为17 leave 函数结语，本条指令执⾏后，ebp的值为图7中⿊⾊Old EBP表⽰的值，esp指向图7中⿊⾊Old ebp所在内存空间的上⼀个内存空间，该处存放的是指向CRT调⽤main函数后紧接的指令的所在的内存地址

ret main函数返回

4、总结

计算机⼯作的过程实际上就是“取指令，执⾏指令”的循环，程序在执⾏时被装⼊内存，计算机从内存中某个位置开始读取指令按照⼀定逻辑顺序执⾏，直到程序结束。在执⾏过程中根据需要为程序中各个模块在内存中开辟⼀定的空间[如栈，堆]，运⾏栈对应函数调⽤⼗分重要，函数参数和⾃动变量都存储于运⾏栈中。计算机从内存的什么地⽅开始执⾏指令完全由cpu中指令指针寄存器[EIP]中的值决定，并不会区分内存中什么地⽅是代码段，什么地⽅是数据段。

688IT编程网

Linux下简单C语言小程序的反汇编分析

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Linux下简单C语言小程序的反汇编分析

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式