关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

如何在启智平台上进行模型训练 - GPU版本

1 概述

启智平台使用准备，本项目需要用户创建启智平台账户，克隆代码到自己的账户，上传数据集，具体操作方法可以通过访问OpenI_Learning项目学习小白训练营系列课程进行学习。

如果你需要试运行本示例，则无需再次上传数据集，因为本示例中的数据集MnistDataset_torch.zip已经设置为公开数据集，可以直接引用,数据集也可从本项目的数据集目录中下载并查看数据结构，MNISTDataset_torch.zip数据集下载。
数据文件说明
- MNISTData数据集是由10类28∗28的灰度图片组成，训练数据集包含60000张图片，测试数据集包含10000张图片。

使用GPU进行训练，需要在GPU芯片上运行，所以上传的数据集需要传到GPU界面。(此步骤在本示例中不需要，可直接选择公开数据集MNISTDataset_torch.zip)

准备好数据和执行脚本以后，需要创建训练任务将Pytorch脚本运行。首次使用的用户可参考本示例代码。

由于A100的适配性问题，A100需要使用cuda11以上的cuda版本，目前平台已提供基于A100的cuda基础镜像，只需要选择对应的公共镜像：

训练界面参数参考如下：
avatar

表1 创建训练作业界面参数说明

参数名称	说明
计算资源	选择CPU/GPU
代码分支	选择仓库代码中要使用的代码分支，默认可选择master分支
镜像	镜像选择已在调试环境中调试好的镜像，目前版本请选择基础镜像：平台提供基于A100的cuda基础镜像，如dockerhub.pcl.ac.cn:5000/user-images/openi:cuda111_python37_pytorch191
启动文件	启动文件选择代码目录下的启动脚本train.py
数据集	数据集选择已上传到启智平台的公共数据集MnistDataset_torch.zip
运行参数	增加运行参数可以向脚本中其他参数传值，如epoch_size
资源规格	规格选择含有GPU个数的规格

目前训练任务的日志只能在代码中print输出，参考示例train.py代码相关print

No Description

pytorch gpu 教程启智平台示例手写数字识别

Python