小白训练营第8课-云脑(基于CPU/GPU调试和训练任务)
如何使用云脑1(CPU/GPU)进行调试和训练任务
在数据集课程中,我们已经初步提到了2种云脑环境,基于CPU/GPU算力资源的云脑1,和基于Ascend NPU算力资源的云脑2。
先简单介绍下AI协同平台的云脑:
启智社区与智能算力云脑平台对接,旨在为用户提供一体化服务,该服务集环境搭建、项目在线调试、运行、结果分析与评估于一体。目前,云脑1和云脑2均已具备模型调试与模型训练功能。
其次,介绍下使用云脑前的准备工作:
需要在登录状态下才能操作云脑
需要先创建项目,如果存在多个项目,则选择想操作的项目
本节课,我们先讲解云脑1的功能,内容重点大纲如下:
1、调试任务部分(新建调试任务、进入调试环境)
2、训练任务部分(新建训练任务、一键启动训练、模型下载)
一. 调试任务
1. 新建任务
在【个人中心】页面点击【云脑】,界面默认选择【调试任务】,在【全部】的下拉框中可选择CPU/GPU或者NPU算力资源进行调试任务的创建,当然我们在新建调试任务的面板中也可以切换算力资源。
点击【新建调试任务】按钮进行任务创建界面,配置相应信息:
选择计算资源,可选择云脑1的CPU/GPU资源,或选择云脑2的Ascend NPU资源
GPU类型,默认选择T4类型
选择镜像,可下拉选择已具备相应运行环境的镜像或输入镜像关键词选择相应地址,也可以输入“/”查找自己保存过的镜像 (此处无法创建镜像,但调试后可以通过【提交镜像】来保存为自己的镜像环境,方便后续直接使用),选择镜像后,可以点击右侧的“×”快速删除当前镜像进行重新选择
选择数据集,下拉选择或直接输入您项目中使用的数据集 (如果使用的数据集未在下拉列表中,需先在数据集处进行上传)
其他选项,默认即可
点击【新建任务】,完成创建云脑1任务
2. 任务调试
创建完任务之后,需待任务状态变为RUNNING状态,方可开始调试(如果创建完任务后,显示为WAITTING状态,可以进行手动刷新)。
在右侧操作栏,点击【调试】可对项目代码进行调试;
点击【停止】则是对此任务进行停止,任务一经停止,不可再次启动,需要慎重操作;
点击【提交镜像】,系统会将你在创建该任务的时候使用的镜像进行保存
点击【调试】即可进入默认的调试界面
3. 调试界面功能介绍
刚接触的童鞋可能不太熟悉各个功能,接下来,我们对界面功能进行简单讲解
文件浏览页面(File Browser)
默认进入的界面是文件浏览页面(File Browser),可以查看整个项目文件,创建云脑任务的时候,代码路径默认设置为/code。
上方几个图标如图所示,【+】为新增文件,点击之后会弹出右侧【Launcher】窗口,可以在线编辑多种形式的代码文件或者查看帮助,大家可以根据实际需求选择相应的形式进行代码调试
其中python代码编辑有两种形式,一种为【NOTEBOOK】方式,另一种为【Console】命令行形式。
【Other】处可以打开终端【Terminal】,点击【Text File】编写文本文档,点击【Markdown File】编写文档,最后一个可以点击查看功能使用向导。
代码运行状态查看(Running Terminals and Kernels)
我们在Launcher页面点击Notebook的Python3,Console的Python3和Other的Terminal创建3个文件,然后点击左侧工具栏第2个图标,即可查看这3个代码文件的运行状态
其中,KERNEL SESSIONS区显示的是Notebook和Console文件窗口,TERMINAL SESSIONS区显示Terminal文件窗口
点击右侧的SHUT DOWN可关闭相应文件
命令窗口(Commands)
点击左侧第三个图标命令(Commands),可以在标注2区域选择想要更改标注3 Launcher中的子选项,对其设置信息进行变更操作。
打开窗口(Open Tabs)
点击左侧第5个图标可以查看所有已经打开的窗口,其余两个图标(Property Inspector)和(Extension Manager)不常用就不过多介绍了,大家可以自行体验
以上就是对调试环境的讲解,大家可以根据项目实际情况进行代码调试。
最后,再跟大家补充一下如何提交镜像
4. 提交镜像
为了方便我们下载在创建任务时使用该环境配置,可以将本次配置的环境信息进行保存。
在【云脑】页面选择状态为RUNNING的相应任务,在操作栏点击【更多】下拉选择【提交镜像】
为镜像添加相应标签,点击提交即可保存
提交镜像之后,点击【新建调试任务】,在镜像选择时,输入关键词就可以选择我们刚刚提交过的镜像了。
好啦,云脑1的调试任务部分就讲解到这里啦,接下来讲解云脑1的训练任务
二. 训练任务
1. 新建训练任务
首先点击云脑页面的【训练任务】页签,再点击右侧【新建训练任务】
进入到训练任务配置页面,默认选择CPU/GPU的计算资源,配置好相关的镜像、数据集、启动文件即可创建云脑1的训练任务。
需要注意的是,目前接入的训练资源是A100,请选择基础的镜像进行训练,其他镜像由于A100的适配性问题可能无法运行。
基础镜像是【dockerhub.pcl.ac.cn:5000/user-images/openi:ssbai_torch1.9】,包含pytorch1.9,python3.8,cuda11.1
使用含有版本为Pytorch1.9和cuda11的镜像,界面截图如下所示。
2.一键启动训练任务
创建完成之后,待状态变更为Running,即可自动开启训练
3.模型下载
待训练结束后,可点击任务名称,查看配置信息与训练日志,训练出的模型可点击【结果下载页面】,点击模型名称即可下载
云脑1的调试与训练部分就讲解到这里啦,下节课我们一起学习如何使用云脑2~