#6517 训练任务结果回传时,存在虎鲸返回NOT FOUND的情况,目前社区直接认为没有结果文件,但是存在有结果文件也返回NOT FOUND的情况,需要优化

Closed
created 1 month ago by ychao_1983 · 5 comments
## 场景描述 测试中发现,训练任务结果回传时,存在虎鲸返回NOT FOUND的情况,目前社区直接认为没有结果文件,导致不能进行重试。 实际上由于对象存储上传可能是异步的,所以立即访问可能存在访问不到对象的情况。 ## 预期效果 训练任务结果回传时,虎鲸返回NOT FOUND, 社区不再直接认为没有结果文件。 前端提示“同步失败或没有结果文件”, 允许用户重试。
ychao_1983 added this to the V20250618 milestone 1 month ago
ychao_1983 self-assigned this 1 month ago
ychao_1983 added the
enhancement
label 1 month ago
tanglj commented 1 month ago
Collaborator
后端做重试。
wangj commented 1 month ago
Owner
测试时除了训练任务,也要测调试任务。 比如验证点:无文件回传时,结果下载页签是空的,而不是显示“文件同步失败”
ychao_1983 added the
test
label 1 month ago
ychao_1983 commented 1 month ago
Owner
测试不太好构造,我实际测试调试任务没有结果文件回传状态接口也可以返回成功。 目前如果遇到404的情况,会触发重试(重试后在下次检查回传状态时再更新状态和步骤(周期一分钟)), 最多触发2次重试, 如果还是404,就认为结果页是空的
ychao_1983 added this to the fix-6519 branch 1 month ago
wangj self-assigned this 3 weeks ago
wangj commented 3 weeks ago
Owner
测试场景: 1、调试/训练任务有结果文件,回传成功,结果下载页签显示文件; 2、调试/训练任务无结果文件,结果下载页签显示空; 3、调试/训练任务状态waiting时停止任务,结果下载页签显示空。 其中,场景2和3触发了重试机制; 场景1触发重试,不太好构造,暂时未测到。404 NOT FOUND现象之前在跑DCU调试(若在容器内调用c2net库upload_output方法,调试任务停止后也可以回传结果)时经常遇到,待虎鲸侧修复[1132](https://openi.pcl.ac.cn/openioctopus/Grampus/issues/1132)后再试。
wangj added the
测试中
label 3 weeks ago
wangj removed the
测试中
label 3 weeks ago
wangj commented 2 weeks ago
Owner
已经上线。关闭。后续再观察。
wangj closed this issue 2 weeks ago
Sign in to join this conversation.
No Milestone
No Assignees
3 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.