【Linux】shell脚本实现多并发
情景
shell脚本的执⾏效率虽⾼,但当任务量巨⼤时仍然需要较长的时间,尤其是需要执⾏⼀⼤批的命令时。因为默认情况下,shell脚本中的命令是串⾏执⾏的。如果这些命令相互之间是独⽴的,则可以使⽤“并发”的⽅式执⾏这些命令,这样可以更好地利⽤系统资源,提升运⾏效率,缩短脚本执⾏的时间。如果命令相互之间存在交互,则情况就复杂了,那么不建议使⽤shell脚本来完成多线程的实现。
为了⽅便阐述,使⽤⼀段测试代码。在这段代码中,通过seq命令输出1到10,使⽤in语句产⽣⼀个执⾏10次的循环。每⼀次循环都执⾏sleep 1,并echo出当前循环对应的数字。
注意:
真实的使⽤场景下,循环次数不⼀定等于10,或⾼或低,具体取决于实际的需求。
真实的使⽤场景下,循环体内执⾏的语句往往⽐较耗费系统资源,或⽐较耗时等。
请根据真实场景的各种情况理解本⽂想要表达的内容。
$ cat test1.sh
#/bin/bash
all_num=10
a=$(date +%H%M%S)
for num in `seq 1 ${all_num}`
do
sleep 1
echo ${num}
done
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
通过上述代码可知,为了体现执⾏的时间,将循环体开始前后的时间打印了出来。
运⾏结果:
$ sh test1.sh
1
2
3
4
5
6
7
8
9
10
startTime: 193649
endTime: 193659
10次循环,每次sleep 1秒,所以总执⾏时间10s。
⽅案
⽅案1:使⽤"&"使命令后台运⾏
在linux中,在命令的末尾加上&符号,则表⽰该命令将在后台执⾏,这样后⾯的命令不⽤等待前⾯的命令执⾏完就可以开始执⾏了。⽰例中的循环体内有多条命令,则可以以{}括起来,在⼤括号后⾯添加&符号。
$ cat test2.sh
#/bin/bash
all_num=10
a=$(date +%H%M%S)
for num in `seq 1 ${all_num}`
do
{
sleep 1
echo ${num}
} &
done
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
运⾏结果:
sh test2.sh
startTime: 194147
endTime: 194147
[j-tester@merger142 ~/bin/multiple_process]$ 1
2
3
4
5
6
7
8
9
10
通过结果可知,程序没有先打印数字,⽽是直接输出了开始和结束时间,然后显⽰出了命令提⽰符[j-tester@merger142 ~/bin/multiple_process]$(出现命令提⽰符表⽰脚本已运⾏完毕),然后才是数字的输出。这是因为循环体内的命令全部进⼊后台,所以均在sleep了1秒以后输出了数字。开始和结束时间相同,即循环体的执⾏时间不到1秒钟,这是由于循环体在后台执⾏,没有占⽤脚本主进程的时间。
⽅案2:命令后台运⾏+wait命令
解决上⾯的问题,只需要在上述循环体的done语句后⾯加上wait命令,该命令等待当前脚本进程下的⼦进程结束,再运⾏后⾯的语句。
$ cat test3.sh
#/bin/bash
all_num=10
a=$(date +%H%M%S)
for num in `seq 1 ${all_num}`
do
{
sleep 1
echo ${num}
} &
done
wait
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
运⾏结果:
$ sh test3.sh
1
2
3
4
5
6
7
9
8
10
startTime: 194221
endTime: 194222
但这样依然存在⼀个问题:
因为&使得所有循环体内的命令全部进⼊后台运⾏,那么倘若循环的次数很多,会使操作系统在瞬间创建出所有的⼦进程,这会⾮常消耗系统的资源。如果循环体内的命令⼜很消耗系统资源,则结果可想⽽知。
最好的⽅法是并发的进程是可配置的。
⽅案3:使⽤⽂件描述符控制并发数
$ cat test4.sh
#/bin/bash
all_num=10
# 设置并发的进程数
thread_num=5
a=$(date +%H%M%S)
# mkfifo 创建命名管道
tempfifo="my_temp_fifo"
mkfifo ${tempfifo}
#关联fifo⽂件和fd6,使⽂件描述符为⾮阻塞式
exec 6<>${tempfifo}
rm -f ${tempfifo}
# 为⽂件描述符创建占位信息
for ((i=1;i<=${thread_num};i++))
dolinux循环执行命令脚本
{
echo
}
done >&6
#
for num in `seq 1 ${all_num}`
do
{
read -u6 ##read -u6命令执⾏⼀次,相当于尝试从fd6中获取⼀⾏,如果获取不到,则阻塞获取到了 ##⼀⾏后,fd6就少了⼀⾏了,开始处理⼦进程,⼦进程放在后台执⾏
{
sleep 1
echo ${num}
echo "" >&6 #完成后再补充⼀个空值到fd6中,释放⼀个锁
} &
}
done
wait
# 关闭fd6管道
exec 6>&-
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
运⾏结果:
$ sh test4.sh
1
3
2
4
5
6
7
8
9
10
startTime: 195227
endTime: 195229
⽅案4:使⽤xargs -P控制并发数
xargs命令有⼀个-P参数,表⽰⽀持的最⼤进程数,默认为1。为0时表⽰尽可能地⼤,即⽅案2的效果。
$ cat test5.sh
#/bin/bash
all_num=10
thread_num=5
a=$(date +%H%M%S)
seq 1 ${all_num} | xargs -n 1 -I {} -P ${thread_num} sh -c "sleep 1;echo {}"
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
运⾏结果:
$ sh test5.sh
1
2
3
4
5
6
8
7
9
10
startTime: 195257
endTime: 195259
⽅案5:使⽤GNU parallel命令控制并发数
GNU parallel命令是⾮常强⼤的并⾏计算命令,使⽤-j参数控制其并发数量。
$ cat test6.sh
#/bin/bash
all_num=10
thread_num=6
a=$(date +%H%M%S)
parallel -j 5 "sleep 1;echo {}" ::: `seq 1 10`
b=$(date +%H%M%S)
echo -e "startTime:\t$a"
echo -e "endTime:\t$b"
运⾏结果:
$ sh test6.sh
1
2
3
4
5
6
7
8
9
10
startTime: 195616
endTime: 195618
总结
“多线程”的好处不⾔⽽喻,虽然shell中并没有真正的多线程,但上述解决⽅案可以实现“多线程”的效果,重要的是,在实际编写脚本时应有这样的考虑和实现。另外:
⽅案3、4、5虽然都可以控制并发数量,但⽅案3显然写起来太繁琐。
⽅案4和5都以⾮常简洁的形式完成了控制并发数的效果,但由于⽅案5的parallel命令⾮常强⼤,所以⼗分建议系统学习下。
⽅案3、4、5设置的并发数均为5,实际编写时可以将该值作为⼀个参数传⼊。
参考⽂章
相关知识点
wait命令
&后台运⾏
⽂件描述符、mkfifo等
xargs命令
parallel命令
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论