ParaCloud超算平台使⽤命令及常见问题汇总
超算平台使⽤命令及常见问题汇总
命令功能⽰例
module avail查看可⽤的软件列表
module load [modulesfile]加载需要使⽤的软件module load cuda/10.0
module show [modulesfile]查看对应软件的环境(安装路径、库路径等)module show cuda/10.0
module list查看当前已加载的所有软件
module unload [modulesfile]移除使⽤ module 加载的软件module unload cuda/10.0
module 其它⽤法,可使⽤ module --help 中查询。module 加载的软件环境只在当前登陆窗⼝有效,退出登陆后软件环境就会失效。⽤户如果需要经常使⽤⼀个软件,可以把 load 命令放在~/.bashrc 或者提交脚本⾥⾯。
.bashrcvim命令如何使用
打开.bashrc
$ vim ~/.bashrc
使⽤.bashrc
先按Esc,然后输⼊
:wq 保存后退出vim
:wq! 为强制储存后退出
:w 保存但不退出(常⽤)
:w! 若⽂件属性为『只读』时,强制写⼊该档案
:q 离开 vim (常⽤)
:q! 若曾修改过档案,⼜不想储存,使⽤ ! 为强制离开不储存档案。
:e! 将档案还原到最原始的状态!
建议在⽂件最后追加写⼊.bashrc
torch报错
Linux下激活虚拟环境
$ source activate env
linux上安装完torch后仍报错:
Traceback (most recent call last):
File "cifar10_tutorial.py", line 58, in <module>
import torch
ImportError: No module named torch
是因为还要进⾏环境配置:
⾸先进⼊:
$ vim ~/.bashrc
添加下⾯的语句:
. /home/yourdirectory/torch/install/bin/torch-activate
# added by Anaconda3 installer
export PATH="/home/yourdirectory/anaconda3/bin:$PATH"
然后更新⼀下环境变量就可以了
$ source ~/.bashrc
sh⽂件
运⾏脚本:
$ sbatch --gpus=1 ./run.sh
.sh⽂件是在windows系统编辑的情况下,Linux系统不识别这个⽂件,执⾏“dos2unix ⽂件名字” 转换下⽂件格式,之后再提交脚本 run.sh ⽰例 1,python 程序运⾏脚本⽰例:
\#!/bin/bash
\#加载环境,此处加载 anaconda 环境以及通过 anaconda 创建的名为 pytorch 的环
境
module load anaconda/2020.11
source activate pytorch
\#python 程序运⾏,需在.py ⽂件指定调⽤ GPU,并设置合适的线程数,batch_size
⼤⼩等
python train.py
查看显存状态
$ parajobs
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
9987110 gpu .jobscri paraai_t R 1:52 1 g0028
9987110 作业 GPU 利⽤率为:
g0028: pci.bus_id, utilization.gpu [%], [%], al [MiB],
memory.free [MiB], memory.used [MiB]
g0028: 00000000:85:00.0, 0 %, 0 %, 16160 MiB, 16160 MiB, 0 MiB
取消作业
执⾏ scancel 作业 ID 取消作业
$ scancel 2011812
查看输出⽂件
$ cat slurm-作业号.out
实时查看输出
$ tail -f slurm-作业号.out
如果遇到报错,Ctrl+C退出
有些python程序可能默认没有输出到slurm⽂件⾥,可以run.sh 脚本⾥加上 export PYTHONUNBUFFERED=1 提交试试
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论