#7 协同计算任务各阶段耗时统计标准化+预执行回归建模仿真方案实现

Open
created 2 years ago by JinWang · 4 comments
JinWang commented 2 years ago
**协同计算任务各阶段耗时统计标准化:** * 标准化一个协同计算任务各个重要时间点的统计规则,输出各个主要阶段的一些典型耗时数据 **预执行回归建模仿真方案实现** * 用户的计算任务预执行若干round,统计每个round各阶段的真实耗时 * 结合每个阶段的回归模型计算整个任务总耗时、各种阶段耗时占比等任务效率
JinWang self-assigned this 2 years ago
JinWang commented 2 years ago
Owner
[simulator README](https://git.openi.org.cn/PCL-Platform.Intelligence/AISynergy/src/branch/AISyn-simulator/examples/simulation_example)
JinWang commented 1 year ago
Owner
[5-20:DistIR仿真与Colossal-AI真实训练效率对比](https://git.openi.org.cn/PCL-Platform.Intelligence/AISynergy/src/branch/AISyn-simulator/examples/simulation_example)![](http://) (1)DistIR仿真MLP-small(4GPU,数据并行) ![图片](/attachments/0f6c359f-44cc-4cf8-b77d-9bf8b26bf0b5) (2)Colossal-AI真实执行MLP-small(4GPU,数据并行,只包括了forward和backward) ![图片](/attachments/a538198d-8977-498f-b64c-220b7f70eb5b) Colossal-AI Benchmark(MLP-small) ![图片](/attachments/f66c1b38-9b59-42b0-8437-411018e54e1c) (3)Colossal-AI GPT2真实训练效率(4GPU,数据并行) ![图片](/attachments/abe3bea0-06a0-4416-955a-aac2022402e2) 对比分析: * MLP-small模型真实执行效率随batch size变化规律与DistIR仿真结果不一致,初步分析是仿真方法DistIR的问题,正在分析定位; * Colossal-AI在4GPU上随着并行维度增加,速度降低,但是能够支持更大的batchsize
JinWang commented 1 year ago
Owner
Colossal-AI框架模型训练效率仿真方法(基于事件时序建模的方法)主要步骤: 1、单机模拟多机多卡的分布式进程环境及模型加载;(已完成) 2、根据加载的模型获取每个进程的计算图(进行中,已尝试jit.fx/jit.script 方法); 3、根据计算图表示检测事件,包括计算和通信; 4、建立事件时序模型计算整体效率。
RobertFan commented 1 year ago
学到了
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.