Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
隔了一天再次运行调试任务时显示规格资源不可用,使用的资源为
智算网络的GPU: 1*V100, CPU: 8, 显存: 32GB, 内存: 50GB
新建任务后发现是因为该资源的智算中心类别
由鹏城云脑Ⅰ更改为启智混合智算集群
导致任务无法进行,提示规格资源不可用
该调试任务陆陆续续调试了多次,有些数据存在了该任务里,尚未进行备份,请问应该如何补救?
问题1:因为该任务使用的V100仍然存在,只是更换了位置,是否有方法可以更改该任务的配置信息,使得不再提示规格资源不可用,可以再次运行?
问题2:距离该任务的上次运行尚未超过30天,是否有方法可以备份下载该调试任务里路径"/tmp"里的文件?
相关环境(GPU/NPU)
GPU
相关集群(启智/智算)
智算
任务类型(调试/训练/推理)
调试任务
任务名
guoxt202403051110818
日志说明或问题截图
配置信息里的智算中心由鹏城云脑Ⅰ(上图)(原任务)更改为启智混合智算集群(下图)(下图为新开的一个任务)
期望的解决方案或建议
期望可以提供能修改该任务的配置信息,或者下载该任务临时路径里的文件的方法,使得可以备份该任务里的一些数据文件
鹏城云脑1的V100暂时下架升级驱动,需要待升级完成后再启动再次调试。特别提醒,每次调试后代码或文件应及时提交到代码仓或备份,若资源下架是找不回数据的。
再次调试是为保留配置的环境,非为了保留代码和文件,目前遇到资源下架的不可抗力,数据是没有保存的。
鹏城云脑1的V100已重新上线,可重新再次调试取出文件
好的,感谢!