恒源云(GPUSHARE)_训练指引
该指引分为三个步骤。
从本地上传压缩包到平台个⼈数据
把平台个⼈数据下载到实例内
进⾏训练与⾃动上传结果并关机
操作流程⼤概如下:
本地上传个⼈数据
在本地⾸先将训练的数据打成 zip、 常⽤格式的压缩包。然后本地下载并安装 oss 命令⾏⼯具,使⽤该⼯具将压缩包上传到平台的个⼈数据中。
在这⾥使⽤ Windows 系统作为本地环境。如果是其他系统可以参考 oss 命令⾏⼯具 进⾏安装。
下载 OSS (Windows) 可执⾏⽂件。下载完成后将 oss_windows_ ⽂件名改为 。在 Windows 下打开 CMD (命令提⽰符) 或 PowerShell。
使⽤ cd 命令切换到 所在的⽬录,在这⾥ 保存在了 D:\Download 下。在这⾥是使⽤ PowerShell 终端执⾏。
PS C:\Users\windows> cd D:\Download
PS D:\Download>
在这个⽬录下执⾏ .\oss 可执⾏该命令。上传前需要先进⾏登陆操作。登陆的账号为恒源云平台的账号
名与密码,并⾮实例。账号名为⼿机号,如果是⾮中国⼤陆⼿机号码,需要加上带 + 的国家号。
# 执⾏ .\oss login
PS D:\Download> .\oss login
Username:139********
Password:***********
139******** login successfully!
登陆成功后将进⾏传输⽂件的操作,将本地打成的压缩包上传到个⼈数据中。注意上传的⽂件扩展名仅⽀持常见的压缩包格式。在这⾥的压缩包的路径为 D:\Datasets\MNIST.zip。
# 执⾏ .\oss cp D:\Datasets\MNIST.zip oss://
PS D:\Download> .\oss cp D:\Datasets\MNIST.zip oss://
Start at 2021-10-22 06:21:48.2061924 +0000 UTC
[-------------------------------------] 100.00% 52.34MB/s 76.55MB/76.55MB 1.53s
Upload successfully, 76.55MB, n/a, D:\Datasets\MNIST.zip --> oss://MNIST.zip, cost [7020], status [200], request id [0000017CA6A9BE01901395D26CE9A 228]
上传成功后在平台的个⼈数据页⾯可以查看到该⽂件。
实例下载个⼈数据
在平台创建或启动实例后,通过 JupyterLab 的页⾯进⼊终端或 SSH 客户端连接终端。
在终端中同样使⽤ oss 先进⾏登陆操作。登陆的账号为恒源云平台的账号名与密码,并⾮实例。账号名为⼿机号,如果是⾮中国⼤陆⼿机号码,需要加上带 + 的国家号。
# 执⾏ oss login
~# oss login
Username:139********
Password:***********
139******** login successfully!
vim编辑器下载与安装登陆成功后将进⾏下载⽂件的操作,将刚刚上传的⽂件下载到 /hy-tmp 中(有共享存储的机型可以⽤ /hy-nas)。
# 执⾏ oss cp oss://MNIST.zip /hy-tmp
~# oss cp oss://MNIST.zip /hy-tmp
Start at 2021-10-22 06:37:17.227649376 +0000 UTC
[-------------------------------------] 100.00% 62.85MB/s 76.55MB/76.55MB 1.42s
Waiting to rename
Download successfully, 76.55MB, n/a, oss://MNIST.zip --> /hy-tmp/MNIST.zip, cost [2422], status [206], request id [0000017CA6B7D6419012DB7767D119 59]
下载成功后,进⼊下载的路径下,解压该压缩包。
# 执⾏ cd /hy-tmp 进⼊该⽬录
~# cd /hy-tmp
# 执⾏ unzip -q MNIST.zip 解压该压缩包
/hy-tmp# unzip -q MNIST.zip
执⾏训练并⾃动上传结果后关机
数据已经存在实例内,接下来是进⾏训练的阶段。可以使⽤ JupyterLab 或 VSCode 等⼯具编写代码。注意代码中引⽤的数据路径需要改为实例内的数据路径,在上⽂例⼦中使⽤的是 /hy-tmp。耗时长的训练任务需要通过 Tmux 放在后台运⾏,这样可以关闭本地电脑⽽不中断训练。
按量付费的实例可通过下列操作实现训练完成后上传结果到个⼈数据,之后关机终⽌计费。该操作可以节约按量付费的使⽤成本,以及避免因机器被占⽤导致的 /hy-tmp 的数据⽆法查看与下载。
⽰例脚本的操作需要以下前提,部分操作根据实际需求调整。
训练的结果在 /hy-tmp/result 中
实例中需要提前使⽤平台账号⼿机号与密码执⾏ oss login 成功登陆
在 /root ⽬录下使⽤ vim 创建⼀个 upload.sh 脚本。
cd
vim upload.sh
脚本内容如下,使⽤vim编辑器粘贴下列内容并保存。
#!/bin/bash
set -e
cd /hy-tmp
# 压缩包名称
file="result-$(date "+%Y%m%d-%H%M%S").zip"
# 把 result ⽬录做成 zip 压缩包
zip -q -r "${file}" result
# 通过 oss 上传到个⼈数据中的 backup ⽂件夹中
oss cp "${file}" oss://backup/
rm -f "${file}"
# 传输成功后关机
shutdown
给脚本添加执⾏权限。
chmod u+x upload.sh
此脚本实现了将 /hy-tmp/result 做成 zip 压缩包,再将此⽂件上传到了个⼈数据中。执⾏成功后执⾏关机操作。
在训练的任务代码中的最后调⽤此 /root/upload.sh 脚本运⾏即可,⾸次使⽤时建议先进⾏测试⼀下。如在 Python 代码中引⽤:
import os
os.system('/root/upload.sh')
当训练执⾏完成关机后,在本地可以使⽤ oss 命令⾏⼯具下载打包好的结果⽂件。当实例机器被占⽤⽆法开机时,也可以通过在其他机器上创建新实例并通过 oss 下载数据到新实例中。具体关于 oss 相关操作参考⽂档 oss 命令⼯具。
# 登陆恒源云账号,使⽤恒源云的账号名与密码,账号名为⼿机号
# 如果是⾮中国⼤陆⼿机号码,需要加上带 + 的区号
~# oss login
Username:139********
Password:***********
139******** login successfully!
# 查看⽂件和⽂件夹,-s 表⽰只显⽰⽂件名
~# oss ls -s oss://
Folder list:
oss://
oss://backup/
Object list:
oss://backup/result-20211018-164323.zip
# 下载个⼈数据中的 result-20211018-164323.zip ⽂件到当前⽬录
~# oss cp oss://backup/result-20211018-164323.zip .
Download successfully, 310B, n/a, oss://backup/result-20211018-164323.zip --> /root/result-20211018-164323.zip, cost [57], status [200], request id [0000 017C92929EF49014BE16738685B7]
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论