slurm常用命令
Slurm是一款高性能计算管理系统,常用于并行计算、高性能计算等计算机领域。在使用Slurm进行计算任务管理时,熟练掌握Slurm常用命令是非常重要的。本文将介绍Slurm常用命令,并按照类别进行分类说明。
一、Slurm任务管理命令
1. sbatch:提交一个批处理作业
sbatch是最常用的Slurm命令之一。它用于向Slurm系统提交一个批处理作业。例如,若要在计算节点上执行一个脚本文件,可以使用以下命令:
sbatch run.sh
任务管理器提交更改2. squeue:查看当前队列中的作业
squeue命令可以查看当前队列中所有的作业,包括正在运行的、等待运行的和已完成的作业。例如,要查看用户turing在队列中的作业,可以使用以下命令:
squeue -u turing
3. scancel:取消一个作业
scancel用于取消尚未开始执行的作业。例如,要取消作业ID为123的作业,可以使用以下命令:
scancel 123
二、Slurm节点管理命令
1. sinfo:查看所有节点状态
sinfo命令可以查看Slurm系统中所有计算节点的状态。例如,要查看当前空闲节点的数量,可以使用以下命令:
sinfo -o "%all, free"
2. scontrol:对节点进行控制
scontrol命令可以管理Slurm集中的节点,例如关机、重启和修改属性等操作。例如,要关闭节点node-1,可以使用以下命令:
scontrol update NodeName=node-1 State=DOWN
3. sview:通过GUI查看节点状态
sview是一个基于GUI的Slurm节点状态查看器。它通过颜标识来显示节点的状态,使管理员更容易地了解节点的状态。
三、Slurm队列管理命令
1. sshare:分配资源给指定用户
ssshare命令用于向指定用户分配资源。例如,要将20%的资源分配给用户turing,可以使用以下命令:
sshare -U turing -s 20
2. scontrol:修改队列属性
scontrol命令可以管理Slurm队列,例如修改队列的最大CPU数、最大内存大小等属性。例如,要将normal队列最大CPU数更改为48,可以使用以下命令:
scontrol update PartitionName=normal MaxCPUs=48
四、其他Slurm命令
1. sacct:查看作业历史
sacct命令用于查看Slurm中所有作业的历史信息。例如,要查看用户turing在过去一周中所有完成的作业,可以使用以下命令:
sacct -S $(date -d "-1 week" +%Y-%m-%d) -u turing -X
2. sreport:生成集使用统计报告
sreport命令用于生成各种使用统计报告,例如节点使用情况、用户使用情况等。例如,要生成节点使用情况报告,可以使用以下命令:
sreport node sizes
Slurm是一个非常强大的高性能计算管理系统,不仅可以处理大规模计算任务,而且拥有丰富的管理命令。本文介绍了Slurm的一些常用命令,并按照任务管理、节点管理、队列管理和其他命令进行分类说明,以帮助读者深入理解Slurm系统的管理和使用。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论