#1255 调试任务显示资源规格不可用,如何更换配置信息或下载数据

Closed
created 1 month ago by guoxt · 3 comments
guoxt commented 1 month ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 隔了一天再次运行调试任务时显示**规格资源不可用**,使用的资源为 智算网络的GPU: 1*V100, CPU: 8, 显存: 32GB, 内存: 50GB 新建任务后发现是因为该资源的**智算中心**类别 由**鹏城云脑Ⅰ**更改**为启智混合智算集群** 导致任务无法进行,提示**规格资源不可用** 该调试任务陆陆续续调试了多次,有些数据存在了该任务里,尚未进行**备份**,请问**应该如何补救**? 问题1:因为该任务使用的V100仍然存在,只是更换了位置,是否有方法可以更改该任务的**配置信息**,使得不再提示**规格资源不可用**,可以再次运行? 问题2:距离该任务的上次运行尚未超过30天,是否有方法可以备份下载该调试任务里**路径"/tmp"里的文件**? ### 相关环境(GPU/NPU) GPU ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 调试任务 ### 任务名 guoxt202403051110818 ### 日志说明或问题截图 ![1711616038279.jpg](https://img2.imgtp.com/2024/03/28/8QY3eJpn.jpg) 配置信息里的**智算中心**由**鹏城云脑Ⅰ**(上图)(原任务)更改**为启智混合智算集群**(下图)(下图为新开的一个任务) ![1711616038278.jpg](https://img2.imgtp.com/2024/03/28/nJJnVdi6.jpg) ### 期望的解决方案或建议 期望可以提供能**修改**该任务的**配置信息**,或者**下载**该任务**临时路径里的文**件的方法,使得可以备份该任务里的一些数据文件
liuzx commented 1 month ago
Collaborator
鹏城云脑1的V100暂时下架升级驱动,需要待升级完成后再启动再次调试。特别提醒,每次调试后代码或文件应及时提交到代码仓或备份,若资源下架是找不回数据的。 再次调试是为保留配置的环境,非为了保留代码和文件,目前遇到资源下架的不可抗力,数据是没有保存的。
liuzx commented 1 month ago
Collaborator
鹏城云脑1的V100已重新上线,可重新再次调试取出文件
guoxt commented 1 month ago
Poster
> 鹏城云脑1的V100已重新上线,可重新再次调试取出文件 好的,感谢!
liuzx closed this issue 3 weeks ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.