#312 公开镜像不能使用的问题

Closed
created 1 year ago by thomas-yanxin · 11 comments
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 目前平台的公开镜像并非都是可以使用的。 A用户公开了某镜像,但此镜像并不可用。 后续B用户用了此镜像进行调试,调试fail了,但一直找不到原因,还以为是平台出了问题。最后发现换个镜像就可以了。 【开玩笑】这个问题有点像:开源不是为了给别人减轻负担,而是给人挖坑的感觉。/😂当然原镜像作者应该不是故意的,可能是制作镜像的过程或者其他环节出现了纰漏。 ### 相关环境(GPU/NPU) GPU ### 任务类型(调试/训练/推理) 调试 ### 期望的解决方案或建议 1. 是否需要上线对公开镜像进行检测的机制,最起码需要保证每个公开镜像是可以调试的。 2. 当此镜像存在风险的时候,是否需要在用户选择此镜像的时候给出风险提示。 3. 是否需要加强平台对镜像的推荐、筛选和评价机制。推荐更为基础的,通用的精选镜像。
chandler commented 1 year ago
不可使用镜像:dockerhub.pcl.ac.cn:5000/user-images/openinew:pytorch_for_d2l
> 不可使用镜像:dockerhub.pcl.ac.cn:5000/user-images/openinew:pytorch_for_d2l 这个我也用不了,就是刚开始的几天能够使用,然后过几天就用不了调试任务了,但是似乎训练任务可以用
或许有可能是镜像太大了?
thomas-yanxin commented 1 year ago
Poster
这个issue的部分功能也想搜集一下目前大家遇到的确定不能使用(调试/训练)的镜像,给后来者规避一下。
thomas-yanxin commented 1 year ago
Poster
> 或许有可能是镜像太大了? 镜像太大连提交都提交不了...
> > 或许有可能是镜像太大了? > > 镜像太大连提交都提交不了... 我多次尝试发现有两个可能,一个是镜像大于16G小于20G能上传但很快就用不了;还有一个可能是公开镜像公开了之后再设为私有似乎也会用不了(?)(不知道是不是bug)
thomas-yanxin commented 1 year ago
Poster
> > > 或许有可能是镜像太大了? > > > > 镜像太大连提交都提交不了... > > 我多次尝试发现有两个可能,一个是镜像大于16G小于20G能上传但很快就用不了;还有一个可能是公开镜像公开了之后再设为私有似乎也会用不了(?)(不知道是不是bug) 镜像能公开后再私有么?
> > > > 或许有可能是镜像太大了? > > > > > > 镜像太大连提交都提交不了... > > > > 我多次尝试发现有两个可能,一个是镜像大于16G小于20G能上传但很快就用不了;还有一个可能是公开镜像公开了之后再设为私有似乎也会用不了(?)(不知道是不是bug) > > 镜像能公开后再私有么? 可以呀 一个建议:建议创建镜像的时候选用内存:16G的GPU/CPU资源,这样既不会占用资源也不会因为镜像太大白费功夫
然后也建议平台能够在镜像描述加一个能显示镜像大小的描述,因为太大的镜像似乎启动调试也要等好久
tanglj was assigned by zeizei 1 year ago
同样被镜像问题卡了很长时间。 怀疑是大镜像,加大数据集导致的。 发现的不可用镜像: pytorch-180-cuda111-python38 pytorch-180-cuda111-python38-apex 这两个镜像,尝试了很多很多次,在无数据集时,仅有一次可用,有数据集时不可用。
liuzx commented 6 months ago
Collaborator
此issue将关闭,若有问题请重提issue。
liuzx closed this issue 6 months ago
Sign in to join this conversation.
Loading…
There is no content yet.