#2964 智算网络NPU训练任务取消对外网权限的依赖

Closed
created 1 year ago by lewis · 11 comments
lewis commented 1 year ago
目前,智算网络接入了中原、成都、武汉、西安等分中心,但是openi能用的只有中原、成都分中心,原因是其他分中心的训练环境没有外网权限,而openi需要外网权限将用户的代码下载到训练环境中、将模型回传到云脑2中。因此如果要把其他分中心的算力也使用起来,需要将上述两个对外网权限的依赖给去掉。 对于代码,可以像数据集一样,通过虎鲸将代码调度到分中心,生成code_url,再调用系统预置的启动脚本去下载代码。 对于模型等需要回传的文件,提供train_url参数(分中心obs地址)供用户上传到分中心obs中,openi查询到任务为终态时,做调度,回传到云脑2obs中。
lewis self-assigned this 1 year ago
lewis commented 1 year ago
Owner
> 目前,智算网络接入了中原、成都、武汉、西安等分中心,但是openi能用的只有中原、成都分中心,原因是其他分中心的训练环境没有外网权限,而openi需要外网权限将用户的代码下载到训练环境中、将模型回传到云脑2中。因此如果要把其他分中心的算力也使用起来,需要将上述两个对外网权限的依赖给去掉。 > 对于代码,可以像数据集一样,通过虎鲸将代码调度到分中心,生成code_url,再调用系统预置的启动脚本去下载代码。 > 对于模型等需要回传的文件,提供train_url参数(分中心obs地址)供用户上传到分中心obs中,openi查询到任务为终态时,做调度,回传到云脑2obs中。 预置脚本需要放在自定义镜像里。
lewis commented 1 year ago
Owner
对于模型回传,需要依赖统一存储平台提供文件夹调度接口,目前暂未实现。 因此先做代码下载的优化。
wangj added this to the V20221019 milestone 1 year ago
wangj added the
enhancement
label 1 year ago
lewis added the
test
label 1 year ago
liwei03 was assigned by lewis 1 year ago
lewis commented 1 year ago
Owner
@liwei03 代码已合入,可测试。
liwei03 closed this issue 1 year ago
lewis added the
wait
label 1 year ago
lewis reopened this issue 1 year ago
liwei03 commented 1 year ago
Owner
2022.10.18 在V20221019版本上,测试智算网络GPU和NPU任务,任务能训练成功,训练失败,日志显示正常,模型文件显示正常。
chenyifan01 modified the milestone from V20221019 to V20221102 1 year ago
lewis commented 1 year ago
Owner
对于NPU训练任务的模型回传,有以下改动: 1、不再提供给用户上传工具(需要外网权限),所以用户无法在训练过程中手动上传文件,只能在训练完成后由系统自动的将/cache/output目录下的文件上传 2、在系统预置的脚本中,增加输出目录(/cache/output/)的打包,并上传到分中心的obs中 3、平台在感知到任务结束后(包括刷新任务详情页、前端自动刷新、后台自动刷新),通过统一存储系统将文件调度回云脑2的obs中,并在数据库中插入一条调度记录,状态为调度中 4、后台定时轮询调度中的记录(暂定为1分钟),向统一存储系统查询调度结果,当调度成功后,向标注系统发送解压指令 5、标注系统在解压完成后,用户就能在结果页面看到模型文件了 综上:这次改动对于用户来说,有以下两点改动: 1、无法手动上传文件 2、任务结束后需要隔一段时间才能在页面中看到文件
lewis commented 1 year ago
Owner
代码已合入npu-model-upload分支,可测试。 须新增配置,见app.ini下的grampus
wangj was assigned by lewis 1 year ago
lewis commented 1 year ago
Owner
目前mindspore1.7.1_train_openi和TensorFlow-1.15-cann_5.1.0-python3.7-euleros2.8-aarch64、Mindspore1.8.1_cann5.1.0_train镜像对应的是中原、成都、武汉分中心,MindSpore-1.6.1-python3.7-aarch64对应的是西安分中心。
chenshihai was assigned by tanglj 1 year ago
tanglj commented 1 year ago
Collaborator
需要在智算网络NPU训练任务详情页面结果下载页签,增加等待结果出来的提示文字和结果失败的提示文字 一、非终态(waiting、init、running),提示文字如下 状态1:任务还未结束,稍后再来看看 二、终态,提示文字如下 状态1:文件同步中,请稍候 状态2:文件同步失败 状态3:没有文件可以下载 状态4:罗列实际可下载的文件
wangj commented 1 year ago
Owner
备注:终态 状态3 没有文件可以下载,不存在。因为智算npu训练任务-结果下载页签至少会放1个日志文件train.log。
wangj commented 1 year ago
Owner
> 备注:终态 状态3 没有文件可以下载,不存在。因为智算npu训练任务-结果下载页签至少会放1个日志文件train.log。 更正一下,手动停止运行中的智算npu训练任务会出现终态3。
wangj commented 1 year ago
Owner
已经上线。遗留问题: #3160
wangj closed this issue 1 year ago
Sign in to join this conversation.
No Milestone
4 Participants
Notifications
Due Date

No due date set.

Loading…
There is no content yet.