天垓100
天数智芯天垓100通用GPU训练加速卡
以ResNet50的PyTorch模型为例,使用DeepSparkHub模型仓库在启智天垓100算力上训练
Step 1:获取天垓100训练模型列表
访问DeepSparkHub模型仓库获取能在启智社区天垓100算力运行的模型列表。
“模型名称”将链接到该模型的模型指导文档,“框架”和“数据集”标识了该模型使用的深度学习框架和数据集。
Step 2:启智云脑申请天垓100算力
从启智社区的iluvatar/TianGai100云脑入口,参照天数智芯GPGPU调试任务申请天垓100算力。
注意:根据模型列表中对应的数据集,在算力申请过程中需添加该模型所需的数据集。
Step 3:获取DeepSparkHub模型库的模型文档和模型代码
git clone https://openi.pcl.ac.cn/DeepSpark/DeepSparkHub
git checkout openi-task12
“cv/classification”为模型分类目录,pytorch,tensorflow子目录存放了对应框架的模型指导文档和运行代码
.
├── cv # 计算机视觉
│ ├── classification # 分类
│ │ ├── resnet50 # ResNet50模型
│ │ │ ├── paddlepaddle # PaddlePaddle框架
│ │ │ │ └── README.md # 模型指导文档
│ │ │ ├── pytorch # PyTorch框架
│ │ │ │ ├── README.md # 模型指导文档
│ │ │ │ └── ... # 模型运行代码
│ │ │ └── tensorflow # TensorFlow框架
│ │ │ ├── README.md # 模型指导文档
│ │ │ └── ... # 模型运行代码
│ │ └── ... # 其他分类模型
│ └── ... # 其他模型子类
└── nlp # 自然语言处理分类
└── ... # NLP模型
Step 4:切换到resnet50/pytorch目录后,按照模型指导文档的步骤进行模型训练
cd cv/classification/resnet50/pytorch/
cat README.md
模型指导文档一般包含安装,数据集准备,模型训练等步骤。
首先进行必要的依赖安装,让后按照README文档说明把数据集放到指定路径,然后即可开始训练。
One single GPU
bash scripts/fp32_1card.sh --data-path /path/to/imagenet
One single GPU (AMP)
bash scripts/amp_1card.sh --data-path /path/to/imagenet
Multiple GPUs on one machine
bash scripts/fp32_4cards.sh --data-path /path/to/imagenet
bash scripts/fp32_8cards.sh --data-path /path/to/imagenet
Multiple GPUs on one machine (AMP)
bash scripts/amp_4cards.sh --data-path /path/to/imagenet
bash scripts/amp_8cards.sh --data-path /path/to/imagenet
Multiple GPUs on two machines
bash scripts/fp32_16cards.sh --data-path /path/to/imagenet