llvm编译器实战教程第⼆版_LLVMIR⼊门指南(2)——
Helloworld
在系统学习LLVM IR语法之前,我们应当⾸先掌握的是使⽤LLVM IR写的最简单的程序,也就是⼤家常说的Hello world版程序。这是因为,编程语⾔的学习,往往需要伴随着练习。但是⼀个独⽴的程序需要许多的前置语法基础,那么我们不可能在了解了所有前置语法基础之后才完成第⼀个独⽴程序,否则在学习前置语法基础的时候,就没有办法在实际的程序中练习了。因此,正确的学习⽅式应该是,⾸先掌握这门语⾔独⽴程序的基础框架,然后每学习⼀个新的语法知识,就在框架中练习,并编译看结果是否是⾃⼰期望的结果。
综上所述,学习⼀门语⾔的第⼀步,就是掌握其最简单的程序的基本框架是如何写的。
最基本的程序
以macOS 10.15为例,我们最基本的程序为:
; main.lltarget datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.15.0"
define i32 @main() {
ret i32 0
}
这个程序可以看作最简单的C语⾔代码:
int main() {
return 0;
}
在macOS 10.15上编译⽽成的结果。
我们可以直接测试这个代码的正确性:
clang main.ll -o main
./main
使⽤clang可以直接将main.ll编译成可执⾏⽂件main。运⾏这个程序后,程序⾃动退出,并返回0。这正符合我们的预期。
基本概念
下⾯,我们对main.ll逐⾏解释⼀些⽐较基本的概念。
c语言编程入门指南pdf注释
⾸先,第⼀⾏; main.ll。这是⼀个注释。在LLVM IR中,注释以;开头,并⼀直延伸到⾏尾。所以在LLVM IR中,并没有像C语⾔中的/* comment block */这样的注释块,⽽全都类似于// comment line这样的注释⾏。
⽬标数据分布和平台
第⼆⾏和第三⾏的target datalayout和target triple,则是注明了⽬标汇编代码的数据分布和平台。我们之前提到过,LLVM是⼀个⾯向多平台的深度定制化编译器后端,⽽我们LLVM IR的⽬的,则是让LLVM后端根据IR代码⽣成相应平台的汇编代码。所以,我们需要在IR代码中指明我们需要⽣成哪⼀个平台的代码,也就是target triple字段。类似地,我们还需要定制数据的⼤⼩端序、对齐形式等需求,所以我们也需要指明target datalayout字段。关于这两个字段的值的详细情况,我们可以参考Data Lay
out和Target Triple这两个官⽅⽂档。我们可以对照官⽅⽂档,解释我们在macOS上得到的结果:
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
表⽰:e: ⼩端序
m:o: 符号表中使⽤Mach-O格式的name mangling(这玩意⼉我⼀直不知道中⽂是啥,就是把程序中的标识符经过处理得到可执⾏⽂件中的符号表中的符号)
i64:64: 将i64类型的变量采⽤64⽐特的ABI对齐
f80:128: 将long double类型的变量采⽤128⽐特的ABI对齐
n8:16:32:64: ⽬标CPU的原⽣整型包含8⽐特、16⽐特、32⽐特和64⽐特
S128: 栈以128⽐特⾃然对齐
target triple = "x86_64-apple-macosx10.15.0"
表⽰:x86_64: ⽬标架构为x86_64架构
apple: 供应商为Apple
macosx10.15.0: ⽬标操作系统为macOS 10.15
在⼀般情况下,我们都是想⽣成当前平台的代码,也就是说不太会改动这两个值。因此,我们可以直接写⼀个简单的test.c程序,然后使⽤
clang -S -emit-llvm test.c
⽣成LLVM IR代码test.ll,在test.ll中到target datalayout和target triple这两个字段,然后拷贝到我们的代码中即可。
⽐⽅说,我在x86_64指令集的Ubuntu 20.04的机器上得到的就是:
target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-pc-linux-gnu"
和我们在macOS上⽣成的代码就不太⼀样。
主程序
我们知道,主程序是可执⾏程序的⼊⼝点,所以任何可执⾏程序都需要main函数才能运⾏。所以,
define i32 @main() {
ret i32 0
}
就是这段代码的主程序。关于正式的函数、指令的定义,我会在之后的⽂章中提及。这⾥我们只需要知道,在@main()之后的,就是这个函数的函数体,ret i32 0就代表C语⾔中的return 0;。因此,如果我们要增加代码,就只需要在⼤括号内,ret i32 0前增加代码即可。
在哪可以看到我的⽂章
我的LLVM IR⼊门指南系列可以在我的个⼈博客、GitHub:Evian-Zhang/llvm-ir-tutorial、知乎、CSDN中查看,本教程中涉及的⼤部分代码也都在同⼀GitHub仓库中。
本⼈⽔平有限,写此⽂章仅希望与⼤家分享学习经验,⽂章中必有缺漏、错误之处,望⽅家不吝斧正,与⼤家共同学习,共同进步,谢谢⼤家!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。