Deleting a branch is permanent. It CANNOT be undone. Continue?
No due date set.
Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
目前,智算网络接入了中原、成都、武汉、西安等分中心,但是openi能用的只有中原、成都分中心,原因是其他分中心的训练环境没有外网权限,而openi需要外网权限将用户的代码下载到训练环境中、将模型回传到云脑2中。因此如果要把其他分中心的算力也使用起来,需要将上述两个对外网权限的依赖给去掉。
对于代码,可以像数据集一样,通过虎鲸将代码调度到分中心,生成code_url,再调用系统预置的启动脚本去下载代码。
对于模型等需要回传的文件,提供train_url参数(分中心obs地址)供用户上传到分中心obs中,openi查询到任务为终态时,做调度,回传到云脑2obs中。
预置脚本需要放在自定义镜像里。
对于模型回传,需要依赖统一存储平台提供文件夹调度接口,目前暂未实现。
因此先做代码下载的优化。
@liwei03 代码已合入,可测试。
2022.10.18 在V20221019版本上,测试智算网络GPU和NPU任务,任务能训练成功,训练失败,日志显示正常,模型文件显示正常。
对于NPU训练任务的模型回传,有以下改动:
1、不再提供给用户上传工具(需要外网权限),所以用户无法在训练过程中手动上传文件,只能在训练完成后由系统自动的将/cache/output目录下的文件上传
2、在系统预置的脚本中,增加输出目录(/cache/output/)的打包,并上传到分中心的obs中
3、平台在感知到任务结束后(包括刷新任务详情页、前端自动刷新、后台自动刷新),通过统一存储系统将文件调度回云脑2的obs中,并在数据库中插入一条调度记录,状态为调度中
4、后台定时轮询调度中的记录(暂定为1分钟),向统一存储系统查询调度结果,当调度成功后,向标注系统发送解压指令
5、标注系统在解压完成后,用户就能在结果页面看到模型文件了
综上:这次改动对于用户来说,有以下两点改动:
1、无法手动上传文件
2、任务结束后需要隔一段时间才能在页面中看到文件
代码已合入npu-model-upload分支,可测试。
须新增配置,见app.ini下的grampus
目前mindspore1.7.1_train_openi和TensorFlow-1.15-cann_5.1.0-python3.7-euleros2.8-aarch64、Mindspore1.8.1_cann5.1.0_train镜像对应的是中原、成都、武汉分中心,MindSpore-1.6.1-python3.7-aarch64对应的是西安分中心。
需要在智算网络NPU训练任务详情页面结果下载页签,增加等待结果出来的提示文字和结果失败的提示文字
一、非终态(waiting、init、running),提示文字如下
状态1:任务还未结束,稍后再来看看
二、终态,提示文字如下
状态1:文件同步中,请稍候
状态2:文件同步失败
状态3:没有文件可以下载
状态4:罗列实际可下载的文件
备注:终态 状态3 没有文件可以下载,不存在。因为智算npu训练任务-结果下载页签至少会放1个日志文件train.log。
更正一下,手动停止运行中的智算npu训练任务会出现终态3。
已经上线。遗留问题: #3160