Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
|
1 year ago | |
---|---|---|
AISynergy-Platform | 1 year ago | |
AISynergy-core | 1 year ago | |
Docs | 1 year ago | |
docker-compose | 1 year ago | |
examples | 1 year ago | |
LICENSE | 1 year ago | |
README.md | 1 year ago | |
平台用户手册.docx | 1 year ago |
智算网络协同计算是指基于智算网络基础设施及服务,由多个智算网络用户按照应用场景抽象的作业角色利用数据、算力、模型、网络等资源协同完成一个智能计算作业的计算模式。鹏城众智AI协同计算平台AISynergy是一个分布式智能协同计算平台。该平台的目标是通过智算网络基础设施使能数据、算力、模型、网络和服务,完成跨多个智算中心的协同计算作业,进而实现全新计算范式和业务场景,如大模型跨域协同计算、多中心模型聚合、多中心联邦学习等。这种智能协同计算范式成为充分发挥智算网络整体效能、赋能人工智能产业规模化应用的关键。
AISynergy包括两大部分,第一大部分是协同计算作业管理部分即AISynergy-Platform,实现协同计算作业的配置、管理与可视化,另一部分是协同计算框架即AISynergy-Core,主要完成协同计算作业的核心计算逻辑,由智算网络用户进行配置和部署。众智协同计算平台包括多个组件:协同计算WEB平台、协同计算代理服务器、以及gRPC服务等。 (其中AISynergy-Core也可以单独安装和使用)
众智协同计算平台的主要技术特点如下:
其中:
受理外部请求,实现身份管理、权限管理、算法管理和模型管理等
负责收集存储、CPU、GPU、NPU等资源,控制参数融合事件、效果评估等分布学习过程的各类事件,以及各类请求操作
训练策略:对同步周期进行动态调整、对超时或失效的本地训练进行重置等
训练效果评估:对中间结果进行验证,对最终结果进行分析等
融合策略:支持多种不同的融合策略
参数融合方式:目前实现的是全同步方式,正在研发异步方式和混合方式。
计算资源:CPU、GPU、NPU、MLU
网络资源:带宽、网络延迟等
存储资源:分布式文件存储、状态数据库等
其中:
[WEB]:前端展示页面
[WEB API Server]:后台的管理、数据库的管理、命令的转发等
[Proxy gRPC server]: 实现命令的转发,采集机器信息等
[Proxy]: 实现机器信息采集、运行状态采集、任务执行。任务执行包括任务启动、任务停止等操作,主要是对容器进行启动和停止
AI agent:协同训练服务器,运行在任务组机器上面,实现协调多机构的AI Client的训练过程
AI Client: 协同训练客户端,运行在任务所在机构机器上面,实现对训练数据进行训练,并上传训练过程数据到融合节点
平台部署请见
[部署]
用户使用手册请见
[平台使用手册]
系统主要由算法、算力、数据集、任务组、任务、模型组成,首先用户需要编写特定需求的算法,并满足协同训练的融合训练的基础架构,通过Docker打包并部署到相应的Docker hub服务器完成算法的部署。算力是支撑协同训练的物理基础,可以支持物理机和鹏城云脑部署。数据集是训练的输入,需要部署在算力之上,在不同用户或相同用户均可开展协同学习。一个任务组和一个训练任务等价,任务组需要制定算法和参与用户最小数量。任务是用户加入协同训练的一个实例。
以鹏城云脑环境介绍平台使用流程如下:
其中:
地址:http://121.46.19.67:8383/login
体验账号:guest 密码:Pcl@2022 (该账号只用于查看当前任务组,并没有实际参与当前任务组的协同训练)
如果有智能协同训练场景的需求,请邮件反馈至zhangy03@pcl.ac.cn
[跨域训练模型库]也在不断更新中!
数据集&模型:cifar10 resnet50
算力:5方智算网络用户中心参与的图像分类协同训练,数据平均划分为5份
训练超参:训练epoch=15,采用平均融合策略
如图所示,显示的协同训练场景,是联合5个智算中心,分别是位于深圳的鹏城云脑I、鹏城云脑II、位于北京的北大智算中心、位于合肥的类脑智算中心、位于武汉的武汉智算中心,每个分中心都有部分私有数据,要求数据不出本地, 其中鹏城云脑II、武汉智算中心都是通过对接modelarts进行资源的管理与调度。
查看训练过程:登录众智AI协同计算平台,点击任务resnet50-cifar10查看按钮
[盘古350M-Pytorch代码]
[盘古350M-Mindspore代码]
数据集:600M(baike)
算力:4方智算网络用户中心参与的盘古模型协同训练,数据平均划分为4份,各方数据占150M
训练超参:训练epoch=9,采用平均融合策略
实验结果数据如下图:
结论:
查看训练过程:登录众智AI协同计算平台,点击任务pangu-pt-ms查看按钮
EllipseNet检测模型协同训练验证具体可参考AISyn-EllipseNet
数据集:训练集总共病例图像:1669,normal:468,abnormal:230,other:971
基础模型:EllipseNet
实验场景描述:2方参与的EllipseNet模型协同训练,数据划分成2份,各方数据集中normal、abnormal和other类型的数据量根据比例划分,具体比例见实验结果表。训练epoch=200,协同训练时每个epoch同步一次模型参数,采用平均融合策略
实验结果:
结论:
针对一带一路国家多语言语料稀缺且资源分布不均衡等挑战,多语言模型云际协同训练案例旨在模拟低资源语料分布在多个智算中心且数据不出本地的情形下联合训练一个多语言模型的场景,探索以中文为核心的“一带一路”多语言模型的持续学习技术。
目前训练还在进行,最新结果会及时进行更新
添加微信入鹏城众智协同计算平台交流群
鹏城众智AI协同计算平台AISynergy是一个分布式智能协同计算平台。该平台的目标是通过智算网络基础设施使能数据、算力、模型、网络和服务,完成跨多个智算中心的协同计算作业,进而实现全新计算范式和业务场景,如大模型跨域协同计算、多中心模型聚合、多中心联邦学习等。
Java Vue Python JavaScript Go other