#341 【缺陷】优化jupter终端连接稳定性

Open
created 1 year ago by AlphabetaX · 2 comments
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 调试任务jupter中,会频繁出现连接不稳定问题。 现象为Jupter终端状态栏,notebook运行一段时间后: 1.底部状态栏:变化为 connecting 然后变为 idle 或 Unknow 2.cell运行结果不会更新,且运行其他cell无响应。或cell突然快速更新或报错超出jupter显示更新速度最大值 3.保存在/model的日志文件大部分时候仍然可以更新,少数情况停止更新。 4.在另一个console窗口命令查看GPU和CPU仍然在工作。 5.在网络不稳定状态时,编辑的notebook可能并未保存 6.提示栏:Server Connection Error A connection to the Jupyter server could not be established. JupyterLab will continue trying to reconnect. Check your network connection or Jupyter server configuration. 以上1-6现象不存在明显的相关性,即一个现象并不一定伴随另一个现象 测试了几个不同的网络宽带均有这一问题,IP是浙江这边。 同条件运行Kaggle和colab,也有偶尔重连的情况,频率明显更低(其中colab因为走梯子,更频繁些),且基本不影响使用。 这应该是网络偶尔不稳定导致的重新连接,但是重连后即无法正确显示当前core的状态了 这个现象导致使用者无法判断当前状态是否正常运行,是否需要重启core或刷新页面,导致无效的等待或运行时间浪费。 ### 相关环境(GPU/NPU) GPU ### 相关集群(启智/智算) 启智 ### 任务类型(调试/训练/推理) 调试 ### 任务名 ### 日志说明或问题截图 Server Connection Error ![1669627679439](/attachments/02537d8f-eb9a-4b22-bc58-8e8c7248e774) Connecting: ![image](/attachments/b39b76f8-b4c5-46d8-8d60-bb1435bcdfc8) idle: ![image](/attachments/11a8092b-0a25-4b60-8db1-42518856ab0d) ### 期望的解决方案或建议 1.优化网络、服务器连接,减少网络不稳定因素 2.优化重连机制,减少对运行使用的影响 3.如果连接不稳定导致编辑notebook失败,可给与提示并允许下载文件(参考kaggle) 4.增加CPU、GPU运行状态栏,参考:建议需求https://openi.pcl.ac.cn/zeizei/OpenI_Learning/issues/293#
第六点有没有可能是您的网络不稳定,第一点我也遇到了,会出现某个notebook不能连上内核,但其他都能连上
avadesian was assigned by zeizei 1 year ago
AlphabetaX commented 1 year ago
Poster
确实5、6一般仅出现在网络不稳定的情况,我实际是开了个爬虫或者用了代理。1~4在网络通畅也会出现。 不过个人觉得平台兼容适应一定网络不稳定也是有必要的。 类似下载过程的断点续传,大文件下载过程,很难避免偶尔网络不稳定,断了就完全重新下载,是比较痛苦的。 目前同样网络条件可在kaggle上使用稳定,colab上偶尔重连(因为梯子)。 如果时间有限可优先优化文件保存,如上所属,kaggle的方法是识别自动保存异常然后提示下载文件。 > 第六点有没有可能是您的网络不稳定,第一点我也遇到了,会出现某个notebook不能连上内核,但其他都能连上
Sign in to join this conversation.
Loading…
There is no content yet.