#1225 训练任务中间接近两小时资源没活动

Closed
created 3 months ago by happyxl · 2 comments
happyxl commented 3 months ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 训练任务中间接近两小时cpu没动静,本来前一小时应该时数据集解压时间,但是之间在资源占用情况下看不见任何资源活动的迹象,之后cpu资源开始活动,最后快四小时后训练任务关闭,数据集也没解压好就结束了,浪费了我四小时的积分。 ### 相关环境(GPU/NPU) GPU ### 相关集群(启智/智算) 启智混合智算集群 ### 任务类型(调试/训练/推理) 训练 ### 任务名 happy202401241478062 ### 日志说明或问题截图 ![image](/attachments/1edba928-940c-4800-bb86-4b7fc89be432) ![image](/attachments/3828d5cd-e192-4e90-a377-de8539b4b701) ### 期望的解决方案或建议 最近平台是不是不稳定,日志和结果下载有时看不见。我的积分浪费了呀。
happyxl commented 3 months ago
Poster
新任务的任务运行情况和日志都不显示内容
liuzx commented 1 week ago
Collaborator
分到分中心存储不够导致的
liuzx closed this issue 1 week ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.