Deleting a branch is permanent. It CANNOT be undone. Continue?
Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
调试任务jupter中,会频繁出现连接不稳定问题。
现象为Jupter终端状态栏,notebook运行一段时间后:
1.底部状态栏:变化为 connecting 然后变为 idle 或 Unknow
2.cell运行结果不会更新,且运行其他cell无响应。或cell突然快速更新或报错超出jupter显示更新速度最大值
3.保存在/model的日志文件大部分时候仍然可以更新,少数情况停止更新。
4.在另一个console窗口命令查看GPU和CPU仍然在工作。
5.在网络不稳定状态时,编辑的notebook可能并未保存
6.提示栏:Server Connection Error
A connection to the Jupyter server could not be established. JupyterLab will continue trying to reconnect. Check your network connection or Jupyter server configuration.
以上1-6现象不存在明显的相关性,即一个现象并不一定伴随另一个现象
测试了几个不同的网络宽带均有这一问题,IP是浙江这边。
同条件运行Kaggle和colab,也有偶尔重连的情况,频率明显更低(其中colab因为走梯子,更频繁些),且基本不影响使用。
这应该是网络偶尔不稳定导致的重新连接,但是重连后即无法正确显示当前core的状态了
这个现象导致使用者无法判断当前状态是否正常运行,是否需要重启core或刷新页面,导致无效的等待或运行时间浪费。
相关环境(GPU/NPU)
GPU
相关集群(启智/智算)
启智
任务类型(调试/训练/推理)
调试
任务名
日志说明或问题截图
Server Connection Error
Connecting:
idle:
期望的解决方案或建议
1.优化网络、服务器连接,减少网络不稳定因素
2.优化重连机制,减少对运行使用的影响
3.如果连接不稳定导致编辑notebook失败,可给与提示并允许下载文件(参考kaggle)
4.增加CPU、GPU运行状态栏,参考:建议需求#293#
第六点有没有可能是您的网络不稳定,第一点我也遇到了,会出现某个notebook不能连上内核,但其他都能连上
确实5、6一般仅出现在网络不稳定的情况,我实际是开了个爬虫或者用了代理。1~4在网络通畅也会出现。
不过个人觉得平台兼容适应一定网络不稳定也是有必要的。
类似下载过程的断点续传,大文件下载过程,很难避免偶尔网络不稳定,断了就完全重新下载,是比较痛苦的。
目前同样网络条件可在kaggle上使用稳定,colab上偶尔重连(因为梯子)。
如果时间有限可优先优化文件保存,如上所属,kaggle的方法是识别自动保存异常然后提示下载文件。