C++:perf详解+FlameGraph⽕焰图分析程序性能
因为项⽬需求,C++和java同时在搞,最近了解到Flame Graph⽕焰图这个⼯具,⽹上查了查资料,这⾥记录⼀下。
1 介绍
web site
git:
是⼀个可视化⼯具,可以将诸多性能检测相关的命令⾏⼯具的结果进⾏可视化展⽰,⽅便侦测性能热点。
不同⽕焰图类型:
其⽀持将以下⼯具的采样结果进⾏可视化展⽰:
Linux: perf, eBPF, SystemTap, and ktap
Solaris, illumos, FreeBSD: DTrace
Mac OS X: DTrace and Instruments
Windows:
本⽂以perf为例介绍(关于perf的⽤法可以参考如何在Linux上采集性能数据并且⽣成⽕焰图。
2 perf命令简要介绍
perf是Linux下的⼀款性能分析⼯具,能够进⾏函数级与指令级的热点查。
2.1 Perf List
利⽤perf剖析程序性能时,需要指定当前测试的性能时间。性能事件是指在处理器或操作系统中发⽣的,可能影响到程序性能的硬件事件或软件事件
2.2 Perf top
实时显⽰系统/进程的性能统计信息
常⽤参数
-e:指定性能事件
-a:显⽰在所有CPU上的性能统计信息
-C:显⽰在指定CPU上的性能统计信息
-p:指定进程PID
-t:指定线程TID
-K:隐藏内核统计信息
-U:隐藏⽤户空间的统计信息
-s:指定待解析的符号信息
‘‐G’ or‘‐‐call‐graph’ <output_type,min_percent,call_order>
graph: 使⽤调⽤树,将每条调⽤路径进⼀步折叠。这种显⽰⽅式更加直观。
每条调⽤路径的采样率为绝对值。也就是该条路径占整个采样域的⽐率。
fractal
默认选项。类似与 graph,但是每条路径前的采样率为相对值。
flat
不折叠各条调⽤
选项 call_order ⽤以设定调⽤图谱的显⽰顺序,该选项有 2个取值,分别是
callee 与caller。
将该选项设为callee 时,perf按照被调⽤的顺序显⽰调⽤图谱,上层函数被下层函数所调⽤。
该选项被设为caller 时,按照调⽤顺序显⽰调⽤图谱,即上层函数调⽤了下层函数路径,也不显⽰每条调⽤路径的采样率注: Perf top需要root权限
2.3 Perf stat
分析系统/进程的整体性能概况
task‐clock事件表⽰⽬标任务真正占⽤处理器的时间,单位是毫秒。也称任务执⾏时间
context-switches是系统发⽣上下⽂切换的次数
CPU-migrations是任务从⼀个处理器迁往另外⼀个处理器的次数
page-faults是内核发⽣缺页的次数
cycles是程序消耗的处理器周期数
instructions是指命令执⾏期间产⽣的处理器指令数
branches是指程序在执⾏期间遇到的分⽀指令数。
branch‐misses是预测错误的分⽀指令数。
XXX seconds time elapsed系程序持续时间
任务执⾏时间/任务持续时间⼤于1,那可以肯定是多核引起的
参数设置:
-e:选择性能事件
-i:禁⽌⼦任务继承⽗任务的性能计数器。
-
r:重复执⾏ n 次⽬标程序,并给出性能指标在n 次执⾏中的变化范围。
-n:仅输出⽬标程序的执⾏时间,⽽不开启任何性能计数器。
-a:指定全部cpu
-C:指定某个cpu
-A:将给出每个处理器上相应的信息。
-p:指定待分析的进程id
-t:指定待分析的线程id
2.4 Perf record
记录⼀段时间内系统/进程的性能时间
参数:
-e:选择性能事件
-
p:待分析进程的id
-t:待分析线程的id
-a:分析整个系统的性能
-C:只采集指定CPU数据
-c:事件的采样周期
-o:指定输出⽂件,默认为perf.data
-A:以append的⽅式写输出⽂件
-f:以OverWrite的⽅式写输出⽂件
-g:记录函数间的调⽤关系
-F:采样评率,采样频率建议在4000以内,避免造成太多开销
2.5 Perf Report
读取perf record⽣成的数据⽂件,并显⽰分析数据
参数
-i:输⼊的数据⽂件
-v:显⽰每个符号的地址
-d <dos>:只显⽰指定dos的符号
-C:只显⽰指定comm的信息(Comm. 触发事件的进程名)
-S:只考虑指定符号
-U:只显⽰已解析的符号
-g[type,min,order]:显⽰调⽤关系,具体等同于perf top命令中的-g
-c:只显⽰指定cpu采样信息
-M:以指定汇编指令风格显⽰
svg图
–source:以汇编和source的形式进⾏显⽰
-p<regex>:⽤指定正则表达式过滤调⽤函数
性能调优时,我们通常需要分析查到程序百分⽐⾼的热点代码⽚段,这便需要使⽤ perf record 记录单个函数级别的统计信息,并使⽤perf report 来显⽰统计结果;
举例
perf record -e cpu-clock -g -p 222
-g 选项是告诉perf record额外记录函数的调⽤关系
-e cpu-clock 指perf record监控的指标为cpu周期
-p 指定需要record的进程pid
3 配置采集
Files in /proc that are writable are usually changed by echoing a value into them. You should try:
sudo sh -c 'echo 1 >/proc/sys/kernel/perf_event_paranoid'
The files under /proc/sys/ also have the command for easy access, so you can instead do:
sudo sysctl -w kernel.perf_event_paranoid=1
(though the -w for write seems to be optional). To ensure this is done at boot time create your own /etc/sysctl.f file with the line
kernel.perf_event_paranoid=1
Choose a filename that will not override existing files in /run/sysctl.d/ and /usr/lib/sysctl.d/. See
4 实例:
4.1 实例1:
4.1.1 安装FlameGraph
unzip master.zip
sudo mv FlameGraph-master/ /opt/FlameGraph
添加到环境变量 编辑/etc/profile,增加
#FlameGraph
export PATH=$PATH:/opt/FlameGraph
4.1.2 查程序的pid
$ ps -aux|grep cjdroute
nobody 31779 0.2 0.0 19208 4000 pts/37 S 15:35 0:10 /home/name/cjdroute/cjdns/cjdroute core /tmp client-core-puux8w0hdr7y5kdq9u12qqz7s7cgw5
pid为31779
4.1.3 ⽣成CPU采样⽂件
sudo perf record -F 99 -p 31779 -g -o in-fb.data -- sleep 60
sudo perf script -i in-fb.data > in-fb.perf
⾸先使⽤99HZ的采样频率,对pid为31779的进程进⾏采样,采样输出到in-fb.data中,采样时长为60秒
4.1.4 ⽣成CPU⽕焰图
stackcollapse-perf.pl in-fb.perf >in-fb.folded
flamegraph.pl in-fb.folded >in-fb-cpu.svg
⽕焰图可以使⽤浏览器来打开
X轴是CPU时间,⾊块越宽,表⽰对应函数占⽤的CPU时间越多,可能是性能热点。Y轴是函数调⽤栈,最顶端的是正在执⾏的函数。如果出现unknow则说明缺少调试信息。
4.1.5 ⼀个简单的脚本
#!/bin/sh
DIR=/your-path/
sudo perf record -F 99 -p $1 -g -o $DIR/cpu.data -- sleep $2
sudo perf script -i $DIR/cpu.data > $DIR/cpu.perf
stackcollapse-perf.pl $DIR/cpu.perf > $DIR/cpu.folded
flamegraph.pl $DIR/cpu.folded > $DIR/cpu1.svg
使⽤⽅法:对进程1234采样60秒
bash perf 1234 60
其他脚本:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论