#5181 云脑任务详情页面资源占用情况页签修改为采用双坐标轴分别展示百分比类和数值类数据

Closed
created 2 months ago by tanglj · 10 comments
tanglj commented 2 months ago
1、涉及启智混合智算(章鱼)的燧原、昇腾、寒武纪、天数等芯片。(除了沐曦) 2、主要是 内存 网络 文件系统 对应公司信息。 3、训练任务详情页面已可显示这些字段,但各条线单位数量级不一致,有的线条基本与横坐标重叠,需要增加任意勾选某条线条显示的功能。
tanglj added the
enhancement
label 2 months ago
tanglj commented 2 months ago
Poster
参考 #775 监控接口返回燧原、昇腾、寒武纪、天数等其他芯片的gpu使用率、显存使用率 https://openi.pcl.ac.cn/OpenI/octopus/issues/775
tanglj added this to the V20240129 milestone 2 months ago
tanglj modified the milestone from V20240129 to V20240402 2 months ago
tanglj commented 1 month ago
Poster
1、建议默认选中如下4个字段的线条,所有智算中心的任务都包含这4个字段: cpuUsage gpuMemUsage / npuMemUsage gpuUtil / npuUtil memUsage 2、如下6个字段的线条,默认不选中,用户选中时便可查看。 filesystemAvailBytes filesystemAvailBytes-/cache filesystemAvailBytes-/dev/shm netRecvRate netSendRate numProcesses
chenshihai was assigned by tanglj 1 month ago
chenshihai referenced this issue from a commit 1 month ago
chenshihai added this to the dev-csh branch 1 month ago
chenshihai commented 1 month ago
Collaborator
修改为双坐标显示,百分比的为一类,数值型的为一类,数值型的默认不选中。
chenshihai added the
test
label 1 month ago
wangj was assigned by chenshihai 1 month ago
wangj commented 3 weeks ago
Owner
需要虎鲸一起发版。发现问题: #5364 、 #5374 、 #5375 。
wangj commented 2 weeks ago
Owner
已经修复bug: #5385 启智混合智算集群,资源占用情况页签memUsage和memUsagePercent数值完全一样 #5386 鹏城云脑1的资源利用率gpuUtil一直是0 #5389 资源利用率曲线图,占用率%指标展示过多小数 #5391 gpu训练的资源利用率曲线图重复显示gpuUtil、accCardUtil #5399 GCU训练的accCardUtil、accCardMemUsage一直是0 #5400 【资源利用率】选中了xxbytes指标后,一点击刷新就切换成默认视图、需要重新选一遍xxbytes #5411 资源利用率指标networkReceiveBytes和networkTransmitBytes每个时刻都一样
wangj commented 2 weeks ago
Owner
正式环境现状: 一、章鱼分中心,展示这4个指标cpuUsage,gpuMemUsage, gpuUtil, memUsage。 包括:智算gpu、gcu、gpgpu训练,新大智算npu。 存在2个问题: (1)gcu、gpgpu训练的gpuUtil、gpuMemUsage一直是0。 (2)新大智算npu训练,虽是npu卡,但指标仍然显示gpuUtil、gpuMemUsage。 二、modelArts分中心,展示这10个指标cpuUsage,memUsage, npuMemUsage, npuUtil, filesystemAvailBytes-/,filesystemAvailBytes-/cache,filesystemAvailBytes-/dev/shm/,netRecvRate,netSendRate,numProcesses。 三、关于多卡 1.modelArts,npuUtil、npuMemUsage后面会多"-0"、"-1"。 2.章鱼,仍然是gpuUtil、gpuMemUsage这2个指标,展示均值。
wangj commented 2 weeks ago
Owner
本issue优化后效果: 一、章鱼分中心,采用双纵轴展示8个指标 accCardMemUsage,accCardUtil,cpuUsage,memUsage fsUsageByts,memUsageBytes,networkReceiveBytes,networkTransmitBytes 第1组为百分比类,默认选中 第2组为其它数值类,默认不选中。但用户选中时便可查看。 二、modelarts分中心,指标保持现状。社区前端改为采用双纵轴展示10个指标 三、多卡。保持现状。 改动点: (1)章鱼分中心统一用accCardUtil、accCardMemUsage替换掉原来的gpuUtil、gpuMemUsage,无论是什么卡类型,都有大于0的数值。正式环境现存的2个问题,均已经修复。【章鱼分中心】 (2)章鱼分中心的训练任务新增加了4个指标展示:fsUsageBytes,memUsageBytes,networkReceiveBytes,networkTransmitBytes (3)社区前端采用双纵轴分类展示指标 注意:上述优化,各章鱼分中心需要升级到章鱼最新版本。
wangj commented 2 weeks ago
Owner
备注:鹏城云脑1的章鱼仍然是旧版本。目前测试环境社区新建的智算gpu训练任务,若调度到鹏城云脑1,资源利用率只会展示5个指标:accCardMemUsage,accCardUtil,cpuUsage,memUsage,memUsageBytes。
tanglj changed title from 启智混合智算增加gpu使⽤率、显存使⽤率 to 云脑任务详情页面资源占用情况页签修改为采用双坐标轴分别展示百分比类和数值类数据 2 weeks ago
wangj commented 5 days ago
Owner
鹏城云脑1已经升级章鱼版本。在V20240402.patch通过测试。
wangj modified the milestone from V20240402 to V20240423 5 days ago
wangj commented 5 days ago
Owner
计划跟着里程碑分支V20240423一起发版。
wangj closed this issue 5 days ago
Sign in to join this conversation.
No Milestone
No Assignees
3 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.