#260 新增经验分享,请求合并

Merged
zeizei merged 6 commits from :master into master 1 year ago
  1. BIN
      大神经验分享文件夹/img/1026-1.jpg
  2. BIN
      大神经验分享文件夹/img/1026-2.jpg
  3. BIN
      大神经验分享文件夹/img/1026-3.jpg
  4. BIN
      大神经验分享文件夹/img/1026-4.jpg
  5. +1
    -1
      大神经验分享文件夹/启智平台使用心得-lubenwei.md
  6. +32
    -0
      大神经验分享文件夹/训练代码如何快速下载训练结果心得-lubenwei.md

BIN
大神经验分享文件夹/img/1026-1.jpg View File

Before After
Width: 680  |  Height: 19  |  Size: 4.8 KiB

BIN
大神经验分享文件夹/img/1026-2.jpg View File

Before After
Width: 108  |  Height: 22  |  Size: 1.0 KiB

BIN
大神经验分享文件夹/img/1026-3.jpg View File

Before After
Width: 643  |  Height: 163  |  Size: 20 KiB

BIN
大神经验分享文件夹/img/1026-4.jpg View File

Before After
Width: 570  |  Height: 88  |  Size: 7.3 KiB

+ 1
- 1
大神经验分享文件夹/启智平台使用心得-lubenwei.md View File

@@ -11,7 +11,7 @@
因为科研原因,需要使用显卡进行深度学习,但苦于没有服务器,也尝试过国内外的各种平台,算力差、延迟大、英文界面不会操作以及频繁断线等种种原因使我不得不放弃之前的平台,从知乎上偶然看到评论区推荐启智AI协作平台,注册后尝试用了一天,带给我很大的惊喜。首先是启智AI协作平台算力十分强大,还是免费提供的,这解决了学生党的燃眉之急,操作界面是全中文,界面也十分清爽无广告。通过一天学习教程和自行探索,当然还有群里老师的指点,基本掌握了平台的正确的使用方法,下面分享一下使用心得体会给同学们,我认为正确使用该平台主要在于**路径设置和环境配置**。

### 路径设置:
首先启智平台主要用到的是调试和训练两个平台,**调试平台和训练平台的路径设置不同!!,训练平台分为启智集群和智算网络集群,这两个集群路径设置也不同!!,同时要注意调用CPU和GPU训练的路径也是不同的!!**,很多错误都是路径问题,同时不要忘记了,**在平台上调试或训练时,将自己的代码的路径重新配置一下,包括数据集、参数、输出文件路径**。注意观察提示,如下图所示:
首先启智平台主要用到的是调试和训练两个平台,**调试平台和训练平台的路径设置不同!!,训练平台分为启智集群和智算网络集群,这两个集群路径设置也不同!!,同时要注意调用NPU和GPU训练的路径也是不同的!!**,很多错误都是路径问题,同时不要忘记了,**在平台上调试或训练时,将自己的代码的路径重新配置一下,包括数据集、参数、输出文件路径**。注意观察提示,如下图所示:
<img src= img/1025-1.jpg width=300%>
### 环境配置:
环境配置主要是进入调试平台进行调整。以我个人为例,首先是进入调试环境,然后安装yolov5里面requirement.txt所需的依赖包,**要apt install方式安装wget和unzip(不然使用智算网络集群会报错),不能用pip install方式安装wget和unzip(这是无效安装方式,依然会报错)!!一切环境都配置完后,记得上传环境,然后每次调试或者训练代码时就可以直接调用你配置好的环境,可以大大节省时间。**


+ 32
- 0
大神经验分享文件夹/训练代码如何快速下载训练结果心得-lubenwei.md View File

@@ -0,0 +1,32 @@
## 训练代码如何快速下载训练结果心得

### 分享者:[lubenwei](https://git.openi.org.cn/lubenwei)

### 分享地址:
[知乎](https://zhuanlan.zhihu.com/p/577576275?)
[新浪微博](https://weibo.com/6382352940/Mc7RV1HCh)

### 前言:
在使用平台的一段时间后,发现有一点小问题,就是可能系统还未完善,训练完成后,不支持下载整个训练结果文件夹,这对我们这样的小白非常苦恼,经过老师指点后,就添加了一个函数到自己的代码中,从而可以实现自动将训练结果打包成压缩包,下载训练结果也就非常方便了。

### 修改代码:
**以在智算网络集群运行yolov5为例**。首先,得修改train.py文件,因为train.py文件是启动yolov5的主要文件,首先要确保--project参数设置成正确的输出路径:
<img src= img/1025-4.jpg width=300%>
然后寻找存储目录的变量,经过全局搜索发现变量在yolov5/train.py寻找发现存储目录的变量名为opt.save_dir,通过opt.name也可以确定其为存储目录的变量:
<img src= img/1026-1.jpg width=300%>
接着返回yolov5/train.py,在头文件添加zipfile:
<img src= img/1026-2.jpg width=20%>
添加压缩文件夹函数ZipDir:
<img src= img/1026-3.jpg width=300%>
在main函数调用函数,注意是在最后调用,也就是主程序执行完后调用,原始路径名为opt.save_dir:
<img src= img/1026-4.jpg width=300%>

### 测试:
可以先选择1个epochs测试训练结果文件夹打包功能,有错误可以及时修改。

### 心得
总结来说,就是修改路径,然后寻找算法里面的主程序文件,接着寻找存储目录的变量名,一般是有dir后缀,然后添加压缩文件夹函数,最后在main函数里面进行调用。


### 致谢:
最后感谢社区平台提供的免费算力资源,以及老师们的悉心指点,我也会尽我所能为平台出一份力,祝平台发展的越来越好!!

Loading…
Cancel
Save