Deleting a branch is permanent. It CANNOT be undone. Continue?
No due date set.
This issue currently doesn't have any dependencies.
Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
1、涉及启智混合智算(章鱼)的燧原、昇腾、寒武纪、天数等芯片。(除了沐曦)
2、主要是 内存 网络 文件系统 对应公司信息。
3、训练任务详情页面已可显示这些字段,但各条线单位数量级不一致,有的线条基本与横坐标重叠,需要增加任意勾选某条线条显示的功能。
参考
#775 监控接口返回燧原、昇腾、寒武纪、天数等其他芯片的gpu使用率、显存使用率
OpenI/octopus#775
1、建议默认选中如下4个字段的线条,所有智算中心的任务都包含这4个字段:
cpuUsage
gpuMemUsage / npuMemUsage
gpuUtil / npuUtil
memUsage
2、如下6个字段的线条,默认不选中,用户选中时便可查看。
filesystemAvailBytes
filesystemAvailBytes-/cache
filesystemAvailBytes-/dev/shm
netRecvRate
netSendRate
numProcesses
修改为双坐标显示,百分比的为一类,数值型的为一类,数值型的默认不选中。
需要虎鲸一起发版。发现问题: #5364 、 #5374 、 #5375 。
已经修复bug:
#5385 启智混合智算集群,资源占用情况页签memUsage和memUsagePercent数值完全一样
#5386 鹏城云脑1的资源利用率gpuUtil一直是0
#5389 资源利用率曲线图,占用率%指标展示过多小数
#5391 gpu训练的资源利用率曲线图重复显示gpuUtil、accCardUtil
#5399 GCU训练的accCardUtil、accCardMemUsage一直是0
#5400 【资源利用率】选中了xxbytes指标后,一点击刷新就切换成默认视图、需要重新选一遍xxbytes
#5411 资源利用率指标networkReceiveBytes和networkTransmitBytes每个时刻都一样
正式环境现状:
一、章鱼分中心,展示这4个指标cpuUsage,gpuMemUsage, gpuUtil, memUsage。
包括:智算gpu、gcu、gpgpu训练,新大智算npu。
存在2个问题:
(1)gcu、gpgpu训练的gpuUtil、gpuMemUsage一直是0。
(2)新大智算npu训练,虽是npu卡,但指标仍然显示gpuUtil、gpuMemUsage。
二、modelArts分中心,展示这10个指标cpuUsage,memUsage, npuMemUsage, npuUtil,
filesystemAvailBytes-/,filesystemAvailBytes-/cache,filesystemAvailBytes-/dev/shm/,netRecvRate,netSendRate,numProcesses。
三、关于多卡
1.modelArts,npuUtil、npuMemUsage后面会多"-0"、"-1"。
2.章鱼,仍然是gpuUtil、gpuMemUsage这2个指标,展示均值。
本issue优化后效果:
一、章鱼分中心,采用双纵轴展示8个指标
accCardMemUsage,accCardUtil,cpuUsage,memUsage
fsUsageByts,memUsageBytes,networkReceiveBytes,networkTransmitBytes
第1组为百分比类,默认选中
第2组为其它数值类,默认不选中。但用户选中时便可查看。
二、modelarts分中心,指标保持现状。社区前端改为采用双纵轴展示10个指标
三、多卡。保持现状。
改动点:
(1)章鱼分中心统一用accCardUtil、accCardMemUsage替换掉原来的gpuUtil、gpuMemUsage,无论是什么卡类型,都有大于0的数值。正式环境现存的2个问题,均已经修复。【章鱼分中心】
(2)章鱼分中心的训练任务新增加了4个指标展示:fsUsageBytes,memUsageBytes,networkReceiveBytes,networkTransmitBytes
(3)社区前端采用双纵轴分类展示指标
注意:上述优化,各章鱼分中心需要升级到章鱼最新版本。
备注:鹏城云脑1的章鱼仍然是旧版本。目前测试环境社区新建的智算gpu训练任务,若调度到鹏城云脑1,资源利用率只会展示5个指标:accCardMemUsage,accCardUtil,cpuUsage,memUsage,memUsageBytes。
启智混合智算增加gpu使⽤率、显存使⽤率to 云脑任务详情页面资源占用情况页签修改为采用双坐标轴分别展示百分比类和数值类数据 2 weeks ago鹏城云脑1已经升级章鱼版本。在V20240402.patch通过测试。
计划跟着里程碑分支V20240423一起发版。