#972 训练任务无法实时输出日志信息

Closed
created 1 year ago by xiahb · 5 comments
xiahb commented 1 year ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 仓库:https://openi.pcl.ac.cn/xiahb/torch_resnet 训练脚本:train.py 使用print输出信息,不会实时输出日志信息。 使用GPU,CPU都不会输出,任务名:xiahb202303101013879 这是一个CPU训练的,比较慢,10轮要60多小时。 ### 相关环境(GPU/NPU) GPU/CPU ### 相关集群(启智/智算) 启智 ![image](/attachments/94efcd9b-b940-4dce-8bf8-9f8c7cb036bc) ### 任务类型(调试/训练/推理) 训练 ### 任务名 这个是CPU训练的,一直不输出,换GPU也不输出。等到训练完成才能看到日志信息 xiahb202303101013879 ### 日志说明或问题截图 ![image](/attachments/0618c627-253c-4a91-9d7b-b52e82b556f7) ### 期望的解决方案或建议
crayon commented 1 year ago
我也是遇到这个问题,启智集群不能实时输出日志,智算集群可以。希望能尽快解决。
确实,启智没有日志很难受,不能实时查看,只能用智算了
Gfkyyds commented 1 year ago
这个真的没办法,希望社区可以尽快解决
liuzx added the
need review
label 11 months ago
wangj commented 9 months ago
Owner
可以复现。启智集群GPU训练不能实时输出日志,智算集群GPU训练可以。
liuzx commented 6 months ago
Collaborator
此issue将关闭,若有问题请重提issue。
liuzx closed this issue 6 months ago
Sign in to join this conversation.
Loading…
There is no content yet.