Swin_v2

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

首先要熟悉平台的开发流程（debug、train、test）

Swin-B 跑32卡NPU并行(4节点，每节点8卡)，训练时长90h左右（当时资源回收影响，手动kill）

参考官方pytorch版本代码对齐mindspore版本代码实现
不同机器设置的随机种子设计成固定（train.py）
采用混合精度策略amp_level为02（train.py）
参数配置至关重要！参考官方（如window大小设置为16）和调参经验（如考虑时间问题，训练轮数不足官方给出的300，更少的epoch数目，需要更大的base_lr），具体查看swinv2_base_patch4_window16_256.yaml

镜像：tensorflow1.15-mindspore1.7.0-cann5.1.0-euler2.8-aarch64

数据集不能太大，选择imagenet small或tiny版本

debug过程设置run_modelarts=False，运行脚本在./scripts/里，具体运行看README_CN.md，其中RANK_TABLE_FILE在该环境下直接用/user/config/nbstart_hccl.json；

镜像：MindSpore-1.6.1-python3.7-aarch64

数据集：imagenet-1K

train过程设置run_modelarts=True，目前args.py配置可直接运行

启动文件train.py即可，选择4节点，每节点8卡

镜像：MindSpore-1.7-c81-python3.7-euleros2.8-aarch64

数据集：imagenet-1K

test过程设置run_modelarts=True，目前args.py配置可直接运行

往模型中导入训练好的模型，开启推理任务，选择相应的模型，启动文件eval.py即可，选择单节点1卡

数据读写要使用绝对路径！结果要上传到指定的obs路！debug模式可以直接查看当前全路径，train和test模式可先获取当前目录，然后拼接成全路径