关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

9.5 KiB

Raw Permalink Blame History

第18课-CIFAR-10图像识别项目实战

如何基于云脑1和云脑2调试任务

hi，大家好，经历了前面多轮课程，相比大家已经对平台的各部分功能差不多都熟悉了，恭喜大家已经不再是当初那个小白啦~

今天我们通过平台演示一个猫狗图像识别的小项目，将前面所学到的知识串联起来加以巩固，开始向启智社区达人迈进！

猫狗识别是图像分类的经典案例之一，大家感兴趣的可以自行百度，此次就不过多介绍了。

本节课主要演示如何在云脑1和云脑2进行任务调试以及模型管理，大致内容如下：

代码和数据集上传

分别进入云脑1和云脑2环境调试任务

进入云脑2环境训练任务

模型下载和管理

话不多说，接下来进入猫狗图像识别的项目实操。（对于此教程有问题的童鞋，可以点此参考大家的经验~）

一、新建项目并上传代码和数据集

1. 新建项目

在【个人中心】页面，点击页面右侧【项目列表】旁边的【+】，或直接点击头像左边的【+】开始创建项目，填好相关信息，勾选✔初始化存储库，点击【创建项目】

创建项目的详细教程请参考第1课哦

2. 克隆项目到本地

克隆项目到本地是为了更方便的上传文件，有童鞋可能会问为什么不选择在线上传，平台虽然有在线上传文件的功能，但如果项目代码文件过多，而且涉及多个文件夹的话，不如克隆项目到本地再PUSH上来方便

简单来说，克隆步骤就是先在页面选择HTTPS或SSH的方式复制链接，在本地文件夹中右键【Git Bash Here】，在DOS窗口中输入git clone后按shift+insert键粘贴链接，然后按enter键执行就可以完成克隆

克隆项目的详细教程请参考第5课哦

3. 复制代码到项目

将代码文件夹case1和case2放至刚克隆到本地的项目文件夹中，case1代码表示从云脑1进行调试，case2代码表示从云脑2进行调试

代码文件可在OpenI_Learning项目进行下载，代码文件名【Case_CIFAR10】，或在项目Case_CIFAR10进行下载

4. PUSH代码文件到启智社区项目仓库

这一步就是将本地文件与代码仓库文件进行同步，通过在本地项目文件夹右键选择【Git GUI Here】，将文件PUSH上去，操作见下图

也可参考第6课的教程，学习如何从本地更新和提交文件到项目

5. 上传数据集

猫狗数据集可从Kaggle下载，也可以使用本案例中的数据集，下载地址。

下载好数据集后，进入【数据集】页面，点击【CPU/GPU】选择云脑1，将数据集直接拖入上传框内，【Ascend NPU】为云脑2，分别上传数据集（云脑1和云脑2数据集不共用，所以需选择相应的环境上传数据集）

二、进入云脑环境调试任务

云脑1和云脑2都可以调试任务，这里我们依次进行演示。

1. 云脑1调试任务

a. 新建调试任务

在项目页面点击【云脑】，点击右侧按钮【新建调试任务】

进入新建任务页面，更改或默认任务名称，镜像要求基于Python 3.6+ 和PyTorch 1.0+的环境，可自行配置或选择已经配置好的其他环境，数据集选择对应已上传的数据集（可直接输入数据集名称关键词），其他选项默认即可

任务创建好后，等待十秒左右待状态从CREATING变为RUNNING，点击页面的【调试】进入调试环境

b. 进入云脑1环境

点击调试后，会跳转到云脑的调试环境

d. 云脑1环境调试任务

此时，大家可以进行自定义调试和运行代码了。此案例可输入以下内容进行操作

#ls

#cd /code/case1 (相应代码放在/code下，相应数据集放在/dataset下)

#python main.py

由于每个epoch要训练5万张，在1W张里面进行测试，运行过程会有点儿漫长，但云脑1的调试已经跑通，静等运行结束即可。

接下来我们演示从云脑2进行调试

2. 云脑2调试任务

a. 新建调试任务

同样地，在【云脑】页面点击右侧按钮【新建调试任务】，计算资源选择【Ascend NPU】，选择相应数据集，其他为默认即可，点击【新建任务】

调试任务创建完成后，稍等十秒，待状态变为RUNNING后，点击【调试】

b. 进入云脑2环境

点击调试后，进入调试界面，勾选相应数据集，点击【Sync OBS】进行同步后会弹出确认框，勾选✔【YES】即可，待页面提示成功，关闭即可

点击页面右侧的【New】，创建调试用的Notebook，选择【MindSpore】环境

此时，页面跳转到调试环境

c. 云脑2环境调试任务

我们先将代码克隆过来

在【个人中心】的【代码】界面，点击右侧按钮【复制链接】

回到调试界面，输入 !git clone 后粘贴链接

点击【Run】运行代码，提示克隆成功

接下来解压数据集，在代码中输入 !unzip + 文件名称，点击运行

最后，运行代码 !python Case_CIFAR10/case2/train.py --dataset_path ./cifar-10-batches-bin/

三、云脑2训练任务

1. 新建训练任务

在云脑页面，点击【训练任务】，再点击【新建训练任务】

在弹出的任务创建页面中，选择数据集【cifar.zip】，指定文件中输入“case2/train.py”，其他默认即可，点击【新建任务】

2. 训练任务

点击了新建任务之后，待状态由INIT变为RUNNING之后，模型将开始启动训练，运行时长大约几分钟左右

当任务状态变为“COMPLETED”，表示任务训练成功并已结束。

3. 模型下载

点击训练任务名称进入详情页面

详情页面可查看配置信息、日志和进行模型下载，在模型下载页签，点击模型名称即可下载。

四、模型下载与管理

1. 模型导入

点击【云脑】旁边的【模型】页签进入模型管理页面，点击【导入新模型】。（ps，如果项目创建的时间早于2021年12月，那么老版本的项目需要在【项目设置】的高级设置部分，勾选【启用模型管理】，在12月之后的新版本中创建的项目则会默认开启模型管理）

在弹出的窗口页面中，选择刚完成的模型训练任务，点击【保存模型】

2. 模型下载、删除

将模型导入后，可对模型进行下载、删除及创建新版本

至此，我们已经在云脑环境（云脑1和云脑2）都顺利调试和训练了模型，通过这次项目实战，相信童鞋们又进一步熟悉了平台的强大功能，后面在实践自己项目时就可以得心应手了~