小白训练营第9课-云脑(基于Ascend NPU调试和训练任务)
如何使用云脑2调试和训练任务
前一节课我们讲解了云脑1的功能,本节课我们一起来学习云脑2。
虽然云脑2与云脑1一样具有调试任务的功能,但在操作方面存在很大区别,同时云脑2还具备训练任务的功能,我们一起来看看吧~
Part1-调试任务
1. 上传数据集
要使用云脑,需先上传数据集,我们先进入【数据集】页面,点击右侧【上传】按钮
未曾创建过数据集的同学需要先创建数据集,创建数据集和上传数据集的详细教程可参考第7课-数据集)
云脑1和云脑2数据集无法共用,所以调试使用的数据集也应上传到对应的环境,否则调试任务无法创建成功
进入上传页面,选择云脑2 的 NPU 集群,然后将数据集直接拖入或点击上传,最后点击【上传】按钮
2. 新建调试任务
点击【云脑】页面,点击右侧按钮【新建调试任务】
3. 完成新建任务
在新建任务的页面中,计算资源选择【Ascend NPU】,数据集选择该项目调试相关的数据集,然后点击【新建任务】完成创建
注:同一账号在1个或多个项目间,只能同时并发一个训练任务,如有多个训练任务则需要等待相应任务停止才能创建额外的任务,否则会导致任务创建失败。
创建完成后,待状态由CREATING变为RUNNING
等待时长依据排队情况而定,快的话一般在十秒左右,如果长时间处于等待状态,可以进微信交流群呼叫攻城狮们帮忙看看~
4. 获取数据集下载地址
如果因为版本近期做了调整与升级,云脑2 NPU的调试与训练需要自行下载数据集,那么问题来了,数据集地址在哪呢?
这也是近期很多同学们遇到的问题,那么这里就教大家获取数据集下载地址~
非常简单,我们点击刚创建的任务名称查看任务详情
进入到任务详情页面后,我们可以看到数据集下载地址,将它复制一下吧,后续就可以在运行环境中粘贴下载了
5. 进入调试环境
待任务状态变为RUNNING后,点击操作栏的【调试】
进入 Notebook2.0 环境
6. 克隆代码仓
点击图标,输入代码仓地址进行克隆,也可以新建一个terminal文件输入git clone + 代码仓地址
7. 下载数据集
wget下载自己的数据集( wget -O 文件名 ‘https://数据集地址' )
注意:wget命令中地址两端要加单引号。
接下来大家就可以自行调试啦~
好啦~云脑2的调试任务功能就讲解到这里啦,大家可以上传自己的项目多体验,接下来我们一起来学习云脑2的训练任务功能。
Part2-训练任务
1. 创建训练任务
在【云脑】主界面,点击左侧【训练任务】,进入到训练任务的管理页面
点击右侧【新建训练任务】,进入任务创建页面,其中【启动文件】和【数据集】为必填项,需选择该项目相关的文件,且启动文件必须为.py格式的文件(可以点击右侧的查看样例了解如何进行模型训练的详情),所以需先上传代码文件,因前面已经上传过数据集,此处也不再赘述,其他选项默认即可
2. 训练任务
点击新建任务后,待状态由INIT变更为RUNNING后(由于需要申请算力资源,此过程可能会持续一定时间,稍候即可),项目将开始启动训练
3. 查看配置信息
点击任务名称,进入到版本管理页面,默认查看配置信息,比如任务运行时长及状态,还有相关参数信息等
4. 查看训练日志
点击配置信息旁边选项【日志】可以查看相关训练日志,尤其当训练任务失败时,状态会显示为“FAILED”,此时我们可以通过查询日志了解训练失败的原因
5. 模型下载
点击结果下载,可以查看训练出的模型,点击模型名称可直接下载
5. 保存模型
点击右上方的【保存模型】,可将训练出的模型统一保存至模型页面进行管理
在弹出的页面中,可修改模型名称,然后点击保存模型即可
保存完后,页面将自动跳转至模型页面,刚保存的模型也自动列入进来了
好啦~本节课关于云脑2的功能讲解到这里啦,大家记得多体验练习哦~