曙光集管理使⽤书册V1.1
曙光⾼性能集使⽤⼿册
2010-3-20
⽬录
⼀、曙光⾼性能集概况 (2)
⼆、⽤户管理 (4)
2.1.添加⽤户 (4)
2.2.删除⽤户 (4)
2.3.系统⾃动同步⽤户信息 (4)
2.4.设置⽤户磁盘配额 (4)
三、作业调度管理 (6)
3.1.队列管理 (6)
3.2.⽤户权限控制 (7)
3.3.作业记账功能 (8)
四、软件使⽤ (9)
4.1.编译器 (9)
4.2.数学库 (9)
4.3.MPI并⾏库 (10)
4.4.VASP (11)
4.5.WIEN2K (13)
4.6.ABINIT (15)
1
2
⼀、曙光⾼性能集概况
曙光⾼性能集共有40台CB-85⼑⽚计算节点,1台登录管理节点,⼀套磁盘整列提供存储。提供3套互联⽹络:千兆管理⽹⽤于集管理和⽤户登录;千兆计算⽹作为辅助计算⽹络也兼作管理⽹;InfiniBand ⾼速计算⽹⽤于并⾏程序通信,也负责为整个集提供NFS ⽂件共享服务。集主机名和各⽹络的IP 地址对应如下:
每台CB-85⼑⽚计算节点配有4颗AMD Opteron 8374HE 2.2 GHz 四核处理器,总共16个CPU 核⼼,内存⼤⼩为32 GB 。操作系统为SuSE Linux Enterprise Server 10 SP2。
磁盘阵列提供两个6.3 TB ⼤⼩的存储空间,分别映射到登录管理节点node41的/home1和/home2⽬录,⽤于存放公⽤程序和⽤户数据,这两个⽬录作为NFS 共享⽬录,通过InfiniBand ⾼速⽹共享给整个集。
登录管理节点node41的所⽹IP 地址为:159.226.37.85。Windows 客户端可以⽤SSHSecureShellClient ,PuTTY
,SecureCRT ,Xshell 等SSH 软件登录,Linux 客户端直接在终端命令⾏执⾏:
注:159.226.37.85之前为IBM 机器IP ,如果登录时出现类似以下提⽰:
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! …………….
可以将将本地“~/.ssh/known_hosts ”⽂件清空后再登录:$echo>~/.ssh/known_hosts$*******************.37.85
3
⾮root ⽤户也可以通过telnet 登录:
另外,⽤户也可以通过WEB ⽅式登⼊曙光GridView 集管理系统,对集进⾏管理、监控、和使⽤。在WEB 浏览器的地址栏中输⼊以下URL 即可出现登录界⾯:
登⼊后,如果部分图表显⽰不正常,请为浏览器安装FLASH 插件。
4
⼆、⽤户管理
2.1. 添加⽤户
添加⽤户需要使⽤root 账户在登录管理节点node41上进⾏,分以下⼏个步骤: (1). 在node41上添加⽤户和设定密码,⽤户主⽬录指定在 /home1或 /home2下,这样才能共享给其它计算节点:
$ useradd -m -d /home1/username username $ passwd username
如何用vim命令写程序
(2). 将node41的⽤户信息⽂件“/etc/passwd, /etc/shadow, /etc/group ”同步到所有计算节点,可以使⽤以下命令: $
setup_cluster --sync_user
2.2. 删除⽤户
注意:如果加上“-r ”参数,将删除⽤户的主⽬录,请谨慎 $ userdel [-r] username
$ setup_cluster --sync_user
2.3. 系统⾃动同步⽤户信息每次添加或删除⽤户,更改⽤户密码后,可以选择⼿动同步⽤户信息到所有计算节点,使变动⽴即⽣效。另外node41的 /etc/cron.daily/sync_user 脚本负责每天将⽤户信息⾃动同步。
$ cat /etc/cron.daily/sync_user #/bin/bash
for i in `seq 1 40`; do scp /etc/passwd /etc/shadow /etc/group node$i:/etc/ &>/dev/null done
2.4. 设置⽤户磁盘配额
在管理节点node41上已经打开 /home1 (/dev/sdc1) 和 /home2 (/dev/sdc2) 的磁盘配额(quota )功能。设置某个⽤户磁盘配额时,使⽤root 账户在node41上执⾏:
$ edquota username
会出现类似下⾯的编辑页⾯: Disk quotas for user test (uid 1000):
Filesystem blocks soft hard inodes soft hard /dev/sdc1 1420 0 0 129 0 0 /dev/sdc2 16256 1000000 0 408 0 0
5
这⾥可以分别设置 /home1和 /home2的quota ,如果⽤户主⽬录在 /home1,通常对 /home1设置即可。“blocks ”列显⽰⽬前⽤户的磁盘使⽤量,单位是KB ;“inodes ”列显⽰⽬前⽤户的⽂件数。改变“soft ”,“hard ”列的值就可设置⽤户的最⼤磁盘使⽤量和最多⽂件数。“0”表⽰不做限制。
完成后,可⽤以下命令检查设置好的quota 值: $ quota username
6
三、作业调度管理
作业调度相关的操作,⽐如新建、修改队列、控制队列优先级,将某个⽤户加⼊或移除某队列等,可通过曙光GridView 管理软件进⾏,在WEB 浏览器地址栏中输⼊以下URL :
出现登录界⾯后,⽤root 账户登⼊即可。
3.1. 队列管理
在GridView 管理软件的“作业调度”下拉链菜单中选择“队列管理”,如下图所⽰:
界⾯中会出现系统中已有的队列,选择某个队列后,⽤⿏标点击“修改队列”,可以修改队列属性,包括最⼤作业数、优先级、可访问节点等,如下图所⽰:
7
除了修改队列,也可以新建队列并设定相关属性。
3.2. ⽤户权限控制
在GridView 管理软件的“作业调度”下拉链菜单中选择“⽤户管理”,如下图所⽰:
8
可以对系统中已有的⽤户进⾏设置,⽐如加⼊某个队列,从某个队列中移除,设置优先级、最⼤作业数、最多CPU 核数等。如下图所⽰:
3.3. 作业记账功能
⽤户记账信息保存在/opt/gridview/pbs/dispatcher/server_priv/accounting ⽬录下,每个⽂件对应⼀天的记账信息,⽂件名就是⽇期,如20090930。⼀般不直接读取这些⽂件,⽽通过下⾯的命令抽取出简洁的记账信息:
⽐如,要输出2009.09.30这⼀天的统计信息:
$ pbsacct /opt/gridview/pbs/dispatcher/server_priv/accounting/20090930
输出2009年9⽉的统计信息:
$ pbsacct /opt/gridview/pbs/dispatcher/server_priv/accounting/200909*
另外,-G 参数输出各⽤户组的统计信息,-g GID 输出指定⽤户组的统计信息。
输出2009年9⽉中,整个集的利⽤率:
$ pbsnodect /opt/gridview/pbs/dispatcher/server_priv/accounting/200909*
建议定期备份 /opt/gridview/pbs/dispatcher/server_priv/accounting ⽬录,以备⽇后查询统计。
9
四、软件使⽤
系统公⽤软件都部署在 /home1/soft 下,相应的安装⽂件或源代码放在 /home1/source 下,每个⽤户都可以访问。如果⽤户有个别需求,可以拷贝/home1/source 下的程序或源代码,在⾃⼰的主⽬录中⾃⾏安装。
4.1. 编译器
4.2. 数学库
公⽤数学库位于 /home1/soft/mathlib 下,常⽤的是LAPACK 和BLAS 库,推荐使⽤共性能的GotoBLAS2数学库,它包含了LAPACK 和BLAS 的所有库函数,使⽤⽅法如下:
如果使⽤Intel 编译器:
$ ifort program.f -L/home1/soft/mathlib -lgoto2-intel 如果使⽤PGI 编译器:
$ pgf77 program.f -L/home1/soft/mathlib -lgoto2-pgi
另外,Intel-11.1编译器⾃带了Intel MKL 数学库,⽐如LAPACK 或BLAS 库的使⽤⽅法如下: $ ifort program.f -
L/home1/soft/intel/Compiler/11.1/069/mkl/lib/em64t -lmkl_intel_lp64 -lmkl_sequential –lmkl_core -lguide
10
4.3. MPI 并⾏库
系统没有指定默认的MPI 版本,需要⽤户根据需要选择,需要选择某个MPI 版本时,只需要source 相应的环境变量⽂件即可,⽐如,想要使⽤PGI 版本的OpenMPI ,可以执⾏:
$ source /etc/profile.d/openmpi-pgi
或者把上⾯的命令添加到⾃⼰主⽬录的~/.bashrc ⽂件中,这样就指定了⾃⼰的默认MPI 版本。
另外,使⽤不同MPI 版本编译出来的MPI 并⾏程序执⾏⽅式有所不同,请仔细查阅相关manual 。简单举例如下:【OpemMPI 】
$ mpirun -np 4 -machinefile ma ./mpi_program 其中“ma ”⽂件为计算节点列表,⽐如: $ cat ma node1 node1 node2 node2按照以上的写法,mpirun 会启动4个进程执⾏mpi_program 程序,node1,node2节点上各两个进程。【MVAPICH 】
11
【HP-MPI 】
$ mpirun -np 4 -hostfile ma ./mpi_program
【Intel-MPI 】
$ mpirun -perhost 2 -np 4 ./mpi_program
⼯作⽬录中必须有名为“mpd.hosts ”的⽂件,内容如下: $ cat mpd.hosts node1 node1 node2 node2
4.4. VASP
4.6.28和
5.2.2版本的VASP 可执⾏⽂件安装在 /home1/soft/vasp ⽬录下,⽂件名分别为vasp.4.6和vasp.5.2。VASP 使⽤PGI+HP-MPI 编译,⼿动提交⽅法举例如下:
$ source /etc/profile.d/hpmpi-pgi $ cd YOUR_VASP_WORK_DIR
$ mpirun -np 16 -hostfile ma /home1/soft/vasp/vasp.4.6 & 其中“ma ”⽂件为计算节点列表,⽐如: $ cat ma node39 node39 node39 node39 node39 node39 node39 node39 node40 node40 node40 node40 node40 node40 node40 node40
对于HP-MPI ,“ma ”⽂件也可简写为:
12
$ cat ma node39 8 node40 8
推荐使⽤PBS 作业调度脚本提交作业,系统提供了⼀个VASP 的PBS 脚本模版:/home1/soft/vasp.pbs 。使⽤时可以拷贝到VASP 算例的⽬录,⽤vim 适当修改,再⽤qsub 命令提交即可,举例如下:
$ cd YOUR_VASP_WORK_DIR
$ cp /home1/soft/vasp.pbs ./
修改vasp.pbs 脚本,主要修改下⽂标出的红⾊部分: $ vim vasp.pbs
#PBS -l nodes=2:ppn=16 #此处选择了两个节点,每个节点16进程,总共32进程 #PBS -N jobname #可以为作业取⼀个名字,⽅便识别 #PBS -q low #指定队列,low 为默认队列,是否有权限使⽤其他队列,可以联系管理员 #PBS -j oe
# where is your castep binary file
#EXE=/home1/soft/vasp/vasp.5.2 #选择vasp 版本,“#”表⽰注释掉,不⽣效 EXE=/home1/soft/vasp/vasp.4.6
# run the job
cd $PBS_O_WORKDIR
NP=`cat $PBS_NODEFILE | wc -l` echo Job starts at `date`
/home1/soft/hpmpi/bin/mpirun -np $NP -hostfile $PBS_NODEFILE $EXE echo Job ends at `date`
然后提交作业
$ qsub vasp.pbs
提交作业后,可以⽤“qstat ”命令查看作业状态 (或qstat -an, qstat -u username)。作业正常或⾮正常结束后,会在作业提交⽬录⽣成名如“jobname.oXX ”的⽂件,包含程序正常输出或出错提⽰信息。
$ qdel Jobid
取消作业
13
4.5. WIEN2K
WIEN2K_09.2安装在 /home1/soft/WIEN2k_09.2⽬录下,PBS 作业提交脚本模版为 /home1/soft/wien2k.pbs 。使⽤流程和VASP 类似:
$ cd YOUR_WIEN2K_WORK_DIR
$ cp /home1/soft/wien2k.pbs ./
修改wien2k.pbs 脚本,主要修改下⽂标出的红⾊部分: $ vim wien2k.pbs
>>>>>>>>>>>>> #PBS -l nodes=2:ppn=8 #PBS -N

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。

发表评论