#300 v100可以训练,a100上就会失败

Closed
created 1 year ago by gag · 9 comments
gag commented 1 year ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 ### 相关环境(GPU/NPU) ### 相关集群(启智/智算) ### 任务类型(调试/训练/推理) ### 任务名 ### 日志说明或问题截图![image](/attachments/36919893-05be-44a4-b288-31964acb426c) ### 期望的解决方案或建议
JeffDing commented 1 year ago
用的启智集群还是智算网络?好像智算网络用不了自定义镜像
> 用的启智集群还是智算网络?好像智算网络用不了自定义镜像 智算GPU是可以自定义镜像的。需要把镜像地址贴过去。显示页显示不完整。
JeffDing commented 1 year ago
> > 用的启智集群还是智算网络?好像智算网络用不了自定义镜像 > > 智算GPU是可以自定义镜像的。需要把镜像地址贴过去。显示页显示不完整。 有时间我再试试看,昨天试了两次,自己贴地址过去,就会fail,同样地址使用智算集群就可以正常running
WCX commented 1 year ago
镜像问题,可能换一个就好了,不知道什么原因
gag commented 1 year ago
Poster
好像是镜像问题,换了镜像就可以了
gag commented 1 year ago
Poster
但是全是本地的镜像,不知道为什么那个不行,调试过程中会反复出现,此镜像已存在容器中
gag commented 1 year ago
Poster
![image](/attachments/c7e74228-04c8-4900-a447-278c8ec6227c)
JeffDing commented 1 year ago
那估计镜像问题,你可以试试看用调试模式重新做一个新的镜像看看,我就这么解决了
gag commented 1 year ago
Poster
可以了,换个镜像就行
gag closed this issue 1 year ago
Sign in to join this conversation.
No Milestone
No Assignees
4 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.