讲座题目:鹏程·丝路多语言机器翻译平台介绍
分享人:杨博
分享人介绍:自然语言处理子课题。
内容介绍:
鹏程·丝路多语言机器翻译平台是一个支持语音和prompt输入的机器翻译系统。目前能够提供包括16个语族的35个狱中同中文的互译,并通过网页和微信公众号两种形式提供对外服务。平台集成了当前先进的大语言模型(e.g. LLaMA)和翻译预训练模型(e.g. DeltaLM,mPanGu,M2M100,Transformer),并通过微调进一步提升其翻译性能。针对prompt输入,平台构建了专门的prompt库,用来支持prompt的识别和解析,以形成传统翻译模型的输入;同事作为指令基础,用于训练大语言模型。
讲座PPT下载地址
讲座题目:海胆异构存储调度与使用介绍
分享人:邓凌风
分享人介绍:社区服务系统子课题。
内容介绍:
海胆云际数据统一存储系统是一种支持多种异构云存储服务进行统一管理和数据调度的服务系统(简称海胆),主要负责智算网络中各个智算中心存储的统一纳管和中心间数据的传输调度工作,保障算力任务调度到目标智算中心后能够及时高效的获取到任务依赖的数据集,开始训练任务。目前,海胆已经陆续适配和接入了十几个智算中心,这些中心采用了不同的存储体系,如OBS、MINIO、EFile、星光、横琴存储、中科类脑存储等。本次分享将介绍海胆是如何对这些异构存储进行管理和数据调度的,并介绍海胆的各种使用方式。
讲座PPT下载地址
讲座题目:盘古大模型在NPU上的prompt tuning落地实战
分享人:孔垂麟
分享人介绍:大模型子课题。
内容介绍:
以一次上海的出差经历,分享在nlp大模型微调上的经验和踩坑教训。工商银行希望基于盘古模型在npu上微调来上线如客服辅助、审核分析等功能。团队突击成员通过现场支持完成在三个不同特点的业务场景上的分类任务训练,针对性地设计prompt、数据等优化方案实现效果达到逾期。并通过文档和远程协助的方式在后续其他任务上提供支持。
讲座PPT下载地址
讲座题目:大规模去中心化分布式训练相关工作探究和思考
分享人:董一川
分享人介绍:云际协同子课题。
内容介绍:
随着数据量的不断增大和机器学习模型的不断复杂化,大规模分布式训练成为了一个备受关注的研究方向。算力网络作为主要平台可以为分布式训练提供必要的计算和存储资源,分布式训练也可以为算力网络上的应用场景提供更好的支持和服务。本报告主要聚焦在分布式场景中如何通过高效的协同合作来完成大规模分布式训练,通过分析各种不同的解决方案,包括优化算法、并行化策略、通信优化策略等等,来探讨和思考更加高效的协同训练策略。
讲座PPT下载地址
视频播放地址
讲座题目:章鱼系统异构资源管理
分享人:张加远
分享人介绍:启智章鱼子课题。
内容介绍:
随着算力网呈现算力资源多样化,尤其是更多国产芯片品牌的不断涌现,为了更好支撑异构国产芯片的算力集成到算力网,章鱼系统提供了国产芯片资源接入支持。系统不仅可以充分发挥国产芯片能力、为国产芯片提供更多使用场景,同时也是对国产芯片使用性和性能的检验。
讲座PPT下载地址
视频播放地址
讲座题目:MASdapter面向智能算力网的深度学习代码高效迁移工具
分享人:赖铖
分享人介绍:统一编程框架子课题。
内容介绍:
智算网络的上限标志着中国算力网计划的全面启动,面对中国算力网多样化的异构算力资源,同一套深度学习代码如何能在这些异构算力上高效迁移是一个值得研究的问题。MSAdapter以PyTorch代码迁移到MindSpore为例,既适配了PyTorch代码的编码范式也发挥了昇腾算力匹配MindSpore获得最佳性能的优势。用户只需要对PyTorch代码进行少量的修改就能直接在昇腾上运行。
讲座PPT下载地址
讲座题目:云边拆分学习的通信压缩
分享人:杨卿
分享人介绍:NLP算法子课题。
内容介绍:
当前深度学习模型的参数规模变得越来越大,使得在单集群上训练可能会出现整体算力不够或者空闲算力不足的问题,将模型拆分部署在跨地域集群上是解决这个问题的一种方案。但是集群间的带宽较低,数据的通信时长可能会达到计算时长的数倍,严重制约着模型的训练速度,针对这个问题,本次分享从简化场景——云边拆分学习出发,探索了中间层数据的压缩方案,并提出了一种云边拆分学习的框架。
讲座PPT下载地址
讲座题目:基于鹏城AI靶场的众智AI协同计算平台
分享人:张艳
分享人介绍:大模型子课题。
内容介绍:
数据作为数字经济的核心生产要素,只有将各个地区各个领域间数据要素流通交易起来,才能够充分释放数据要素价值。鹏城实验室率先开放全球最大规模自然语言语料数据集(1.1TB的高质量中文语料数据集、1TB高质量的多语言数据集),研究人员可在基于鹏城AI靶场技术的众智AI协同计算平台上安全使用数据,但无法带走数据。若用户不不愿上传自身数据到鹏城AI靶场,可通过鹏城众智协同计算平台使用本地语料数据与鹏城AI靶场数据进行联合训练或微调。
讲座题目:PanGu-Dialog人机交互反馈持续学习
分享人:房佳
分享人介绍:大模型子课题。
内容介绍:
人机对话受到了学术界和工业界的广泛重视。在研究上,自然语言理解技术逐渐从序列标注向深度学习的方向发展,对话管理经历了由规则到有指导学习的发展过程。在第一阶段鹏程·PanGu-Dialog以大数据和大模型充分利用PLM的只是和语言能力进行微调,在静态指标和人机交互评估都达到SOTA水平,但在一致性、逻辑性和流畅性等方面和人类仍有很大的差距。本次分享主要介绍如何通过人机交互反馈持续学习的方法对目前PanGu-Dialog的能力进行第二阶段的提升。
讲座PPT下载地址
讲座题目:启智社区的模型相关工作
分享人:邹安平
分享人介绍:社区服务系统子课题。联系邮箱:zouap@pcl.ac.cn
内容介绍:
AI三大要素:数据、算法、算力。三大要素最终都是为了生成模型,因为模型是人工智能核心。启智社区目前已经实现模型相关功能包括模型构建、模型训练、模型评测、模型管理、模型部署等,本次将分享启智社区这些功能的现状。
讲座PPT下载地址
视频播放地址
讲座题目:海胆云际统一存储系统(1.0)
分享人:张水勇
分享人介绍:大模型子课题。联系邮箱:632386504@qq.com
内容介绍:
海胆云际统一存储系统向下纳管了多种异构云存储服务,向上封装了数据集的云际间感知、存储和调度等底层细节。还可通过异步的应用层接口,为开发者提供数据集加载云际缓存加速服务;采用去中心化架构降低多智算中心管理隔离地理隔离等不可抗力可能影响。
目前,海胆已接入了鹏城云脑2、成都、中原、武汉、西安等智算中心云存储资源。利用海胆,启智社区更好地实现了算力网络云际计算资源和数据资源统一协同调度。
讲座题目:科研不易 安全第一
分享人:胡江礼
分享人介绍:社区服务系统子课题。联系邮箱:hujl@pcl.ac.cn
内容介绍:
对科研人员而言,安全是一切的基础。安全包括方方面面,与我们每个人的工作生活息息相关。实验室非常重视的安全工作如何开展?特别是在目前重要的关键时期,网络安全该如何应对?如何对应到我们每一天都工作当中?对照实验室和智能部制定的安全工作制度,提高每个科研人员的安全意识,预防安全事故的发生。欢迎一起来学习安全制度,保障我们的科研工作行稳致远。
讲座题目:水下通信赛参赛分享
分享人:王进
分享人介绍:大模型子课题。联系邮箱:wangj05@pcl.ac.cn
内容介绍:
水声通信技术是实验室重点攻关方向,水声信道具有多途、频散、环境噪声高、信道带宽窄、多普勒频移大等特点,严重影响了水声通信段检测解码性能,给实现稳健通信造成了很大难度。本次分享基于参加水下通信赛所做的工作,介绍水声通信背景、水声通信解码传统方法基本流程、AI+水声通信解码的探索尝试、未来可能研究方向等。
讲座题目:点云压缩算法介绍
分享人:叶华
分享人介绍:视觉算法库子课题。联系邮箱:yeh@pcl.ac.cn
内容介绍:
点云已经成为了一种展示和表达3维物体和场景的重要媒介,在无人驾驶、AR/VR、数字博物馆等领域扮演者越来越重要的作用。点云压缩是点云研究的一个重要方向,目前该方向仍有很大的研究和发展空间。本次分享将介绍点云相关的背景知识和行业应用,点云压缩算法的基本原理和性能评估方法,以及我们在点云开源算法库的压缩算法领域所作的工作。
讲座题目:章鱼、虎鲸系统工程化介绍
分享人:林冯军
分享人介绍:启智章鱼子课题。联系邮箱:linfj@pcl.ac.cn
内容介绍:
启智章鱼主要面向使用算力的用户提供了对数据、算法、镜像、模型与算力等资源的管理与使用功能,方便用户一站式构建计算环境和实现计算;虎鲸云际管理调度系统接入智算网络各个智算中心,对算力、存储、网络等资源进行统一管理和协同调度,统一对上层应用提供作业操作等能力。本次分享将对两个系统在工程化方面进行介绍,包含架构设计、API文档、API风格、开发流程、任务管理、CI、CD等内容。
讲座PPT下载地址
视频播放地址
讲座题目:OpenPointCloud点云开源算法库介绍
分享人:张永驰
分享人介绍:视觉算法库子课题。联系邮箱:zhangych02@pcl.ac.cn
内容介绍:
点云研究越来越深入,点云领域的主要研究方向包括压缩、处理和分析等。我们构建了第一个以深度学习算法喂猪的综合性、系统性点云开源算法库OpenPointCloud,对当前点云研究的多类算法提供了多框架的支持和全面的评估。本次分享将介绍该点云算法库的背景和意义,以及所承担的工作和取得的成果。
视频播放地址
讲座题目:启智社区算力积分设计与实现
分享人:陈一帆
分享人介绍:现于鹏城实验室开源所工作,负责启智社区平台研发工作。联系邮箱: cyf_uestc@outlook.com
内容介绍:
积分作为重要的运营工具可以帮助运营人员合理分配平台资源,提高用户活跃度,提升用户忠诚度。启智社区近期计划上线算力积分体系,将不同规格的算力资源价值量化。平台一句运营导向设计积分任务,用户通过完成任务获得积分。用户积分可用于兑换平台算力资源。本次分享将介绍启智社区算力积分体系的整体情况,并分别介绍各个模块的设计和实现方案。
因本期分享内容保密性高,暂不对外分享课件PPT和视频。
讲座题目:鹏程·盘古SDK介绍及快速使用
分享人:易泽轩
分享人介绍:中国传媒大学通信与信息系统硕士毕业,现于鹏城实验室大模型研究子课题工作,负责大模型的在线推理部署和并行算法优化。联系邮箱:yizx@pcl.ac.cn
内容介绍:
为方便开发者快速体验鹏程·盘古系列模型,支持用户基于API去拓展应用案例,高效开发自定义模型。我们将鹏程·盘古开源模型、系列任务拓展与持续学习模型、多语言翻译模型,从语料数据预处理到模型训练、模型转换、推理部署整个流水线封装成开发工具包pcl_pangu。
本次分享将介绍鹏程·盘古SDK的设计方案和主要接口,用户在本地环境编写几行代码即可实现大模型的预训练/微调/推理,并介绍在openi云脑环境中快速使用SDK产出自定义模型流程。欢迎开发者们基于OpenI启智一站式开源服务环境进行体验测试和使用,为鹏程·盘古模型的可持续学习与应用生态发展做出贡献。
讲座PPT下载地址
讲座题目:大规模预训练模型联邦效率优化研究分享
分享人:张嘉琪
分享人介绍:鹏城实验室网络智能部开源技术研究所成员,负责预训练模型联邦学习研发工作。
内容介绍:
BERT、GPT等大规模预训练模型今年来取得了巨大成功,成为AI领域的里程碑。但由于对数据规模及计算资源的高需求,预训练大模型目前仍面临小众、泛用性差的情形。针对数据资源问题,我们提出了基于联邦学习的大模型预训练思路,融合智算网络的分布式算力资源,可以集合不同参与方数据进行训练,并保护各参与方的数据隐私安全。同时我们提出了基于参数稀疏化的训练效果优化思路,在各参与方计算资源有限的情况下,结合云脑的计算资源优势,完成联邦大模型预训练,以满足实际应用场景的需求。
讲座PPT下载地址
视频播放地址
讲座题目:鹏程·PanGu-Dialog:基于鹏程·盘古的大规模开放域对话生成模型
分享人:蒋芳清
分享人介绍:中南大学硕士研究生毕业,鹏城实验室网络智能部开源技术研究所成员,负责大模型、知识图谱、自然语言处理的研发工作。
内容介绍:
如果说自然语言处理事人工智能“皇冠上的明珠”,那么对话生成则是其最难、最核心的任务之一,是“明珠中最亮的那颗”。鹏城·PanGu-Dialog是以大数据和大模型为显著特征,充分利用PLM的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。在静态指标上达到了中文纯模型生成式对话SOTA水平,在知识性和信息量方面优势明显。
讲座PPT下载地址
视频播放地址
讲座题目:星云(Nebula-I):面向云际协同的统一训练框架
分享人:侯永帅 博士
分享人介绍:哈尔滨工业大学计算机应用技术专业博士,现于鹏城实验室基础技术研究室,负责自然语言处理算法研发。联系邮箱:houysh@pcl.ac.cn
内容介绍:
当前人工智能模型的参数规模变得越来越大,使得单集群难以完成模型训练,已训练模型也难以给普通用户使用,如何使用跨地域集群、复用已训练模型进行目标模型训练是当前亟待解决的问题。
面向云际环境的深度学习统一训练框架“鹏城-百度·星云(Nebula-I)”,可以根据任务场景对训练策略、并行方式和通信模式进行整体优化,实现在低带宽环境下使用异地算力、复用已有模型来训练目标模型。本次分享主要介绍星云框架及其在NLP模型不同训练阶段的应用及效果。
讲座PPT下载地址
视频播放地址
讲座题目:在线代码仓库的CI/CD方案介绍
分享人:闫超
分享人介绍:现在鹏城实验室网络智能部开源所,任启智社区研发团队工程师,负责启智平台后端开发和维护工作。邮箱:ychao_1983@sina.com
内容介绍:
CI/CD 的核心概念是持续集成、持续交付和持续部署。本质是开发运维中的自动化流程,可以有效保证代码质量,并提高开发和版本发布的效率。
本次分享将介绍主流在线代码仓库管理网站的CI/CD实现方案,以及在启智开源社区平台如何利用webhook的方式实现CI/CD,并展望在启智开源社区上如何实现ModelOps。
讲座PPT下载地址
视频播放地址
讲座题目:虎鲸云际管理调度系统
分享人:李俊茂
分享人介绍:北京大学计算机应用技术专业硕士毕业,现在鹏城实验室网络智能部开源所,负责章鱼系统开发和维护工作。邮箱:hackmong@163.com
内容介绍:
智算网络将分散在各地智算中心链接在一起,形成统一的智算资源池。面对各个智算中心计算资源和系统软件的异构,我们需要解决智算网络中资源和作业的管理和调度问题。
虎鲸云际管理调度系统Grampus接入智算网络,并对上层应用提供作业操作和监控可视化等能力。本次技术分享将介绍虎鲸系统的设计和实现。
讲座PPT下载地址
讲座题目1:启智章鱼项目软件质量保证
分享人:杨晓珍
分享人介绍:现在鹏城实验室网络智能部开源软件研究所,负责启智章鱼项目的软件质量保障工作。联系邮箱:yangxzh@pcl.ac.cn
内容介绍:
质量是软件生命力的重要源泉。软件质量保证是一个庞大的系统工程,涉及到技术、过程和人员等综合因素。本次分享将介绍软件质量保证的一些基本概念和启智章鱼项目如何剪裁软件开发测试过程、规范软件质量保证流程。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目2:启智章鱼开发测试流程介绍
分享人:李维
分享人介绍:现在鹏城实验室网络智能部开源软件研究所,负责启智章鱼项目的软件质量保障工作。联系邮箱:liw03@pcl.ac.cn
内容介绍:
软件测试是软件质量提高的关键环节之一,本次分享重点介绍启智章鱼项目在启智开源社区平台上的软件测试和发布流程。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:一站式体验启智章鱼AI开源开发平台
分享人:廖伟胜
分享人介绍:华南理工大学硕士研究生,现于鹏城实验室开源系统研究室,负责启智章鱼AI开源开发平台的系统研发、设计。 联系邮箱:liaowsh@pcl.ac.cn
内容介绍:
新版启智章鱼AI开源开发平台为用户提供一站式AI、HPC计算场景下的开发、训练、部署功能,打通AI计算全链路。
在用户端,提供了数据集、算法、镜像、模型与算力等资源的调度管理与使用,方便用户一站式构建计算环境,完成计算任务。
在管理端,为管理员提供了集群资源、各用户任务管理与监控等功能,方便管理员对章鱼系统进行操作与分析。
本次分享将侧重讲解启智章鱼的整体架构及微服务部署方案的设计要点,并实例展示如何使用启智章鱼平台来实现【开发->训练->部署】的AI流水线全流程。
视频下载地址
B站视频观看地址
讲座题目:鹏城·mPanGu-α-53 以中文为中心一带一路多语言机器翻译研究进展
分享人:陶恒韬
分享人介绍:武汉邮电科学研究院信号与信息处理硕士,现于鹏城实验室基础技术研究室,负责大模型的并行训练和优化、多语言大模型、可持续学习等。联系邮箱:taoht@pcl.ac.cn
内容介绍:
以鹏城·PanGu α为基础验证Decoder生成式语言模型在多语言翻译上的有效性,构建2TB鹏城53种语言的多语言高质量单双语数据集、2.6B多语言预训练大模型、2.6B一带一路多语言机器翻译大模型,支持单模型53种语言任意两语种间的互译,对比WMT2021多语言任务榜单No.1已覆盖的50种语言“中<->外”100个翻译方向平均BLEU值提升0.354,对比以英文为中心主流M2M2-100、mRASP2、ALM多语言模型“英<->外”翻译方向论文结果BLEU值接近。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:异质图神经网络开源算法库
分享人:赵天宇
分享人介绍:北京邮电大学硕士研究生,GAMMA Lab成员,负责基于统一深度学习编程框架的图神经网络算法库的开发。联系邮箱:tyzhao@bupt.edu.cn
内容介绍:
异质图神经网络开源算法库(OpenHGNN)基于PyTorch与DGL,集成了大量异质图神经网络模型,旨在为社区提供一键式运行的基线模型,还提供了标准的训练评测流程、用户定制化组件、异质图神经网络设计空间、超参数优化、排行榜等功能。本次分享主要包含图神经网络、现有图神经网络开源框架、OpenHGNN的使用介绍与设计思路、异质图神经网络的设计空间等。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:多语言交流平台可持续构造流水线
分享人:李文龙
分享人介绍:现在鹏城实验室网络智能部开源所,负责章鱼系统开发和维护工作。联系邮箱:liwl@pcl.ac.cn
内容介绍:
搭建以中文为核心的多语言交流平台,研究人机协同与可持续构造演化技术在大规模数据采集与处理、多语言模型构造与演化、大模型部署等环节的落地适配。开发友好的多语言交流界面,构建大规模数据处理平台,提供大规模语料的预处理功能,为多语言模型的高质量持续训练与演化提供资源;研究基于大规模预训练语言模型的机器翻译技术,采用可持续构造演化技术在词表演进、大模型结构可持续调整、可持续增强训练、语言模型新知识嵌入等方面的应用适配。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:启智AI协作平台产品设计工作介绍
分享人:汤丽君
分享人介绍:现在鹏城实验室网络智能研究部,负责启智社区AI协作平台的产品工作。联系邮箱:tanglj@pcl.ac.cn
内容介绍:
启智AI协作平台是一个在线Web应用,旨在为人工智能算法、模型开发提供在线协同工作环境,提供了代码托管、AI流水线、数据集管理与共享、模型管理、免费云端算力资源支持(GPU NPU)、共享镜像等功能。本次分享主要涵盖启智AI协作平台的产品设计工作,包括平台的需求分析、用户分析、运营数据分析、行业分析等内容。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:统一存储Ceph的实现原理简介
分享人:耿林
分享人介绍:现在鹏城实验室网络智能部开源所,参与海胆项目(统一数据存储平台)和智算网络的开发。联系邮箱:gengl@pcl.ac.cn
内容介绍:
Ceph是目前非常流行的分布式存储,其在一个统一的系统中提供对象、块和文件存储,Ceph的架构设计和实现原理很值得学习和借鉴,由于目前工作参与了海胆项目(统一数据存储平台,为了解决数据集的加载慢、接口多样、管理繁琐等痛点),该项目也涉及到数据集在S3云服务以及各种异构分中心环境的存储问题,所以近期对Ceph项目进行了调研并梳理了其实现的一些原理,期望这种设计思想可以应用于后续海胆项目开发中
讲座PPT下载地址
讲座题目:基于transformer大模型的压缩思路和实验
分享人:易泽轩
分享人介绍:中国传媒大学通信与信息系统硕士毕业,现于鹏城实验室大模型研究子课题工作,负责大模型的在线推理部署和并行算法优化。联系邮箱:yizx@pcl.ac.cn
内容介绍:
基于transformer的预训练模型在大量的NLP任务上取得了SOTA的结果,然而这些模型往往参数规模巨大,难以部署在资源有限的场景。本次分享主要侧重于对transformer的剪枝方法和蒸馏技术介绍,提供压缩模型的多种思路。我们在鹏程·盘古26亿模型上进行了微调的动态剪枝实验,在部分下游任务上,剪枝率达到80%的条件下,精度仍保持甚至高于直接微调的结果。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座题目:启智AI协作平台——异构算力接入技术
分享人:刘敏
分享人介绍:OpenI启智社区AI协作平台研发工程师。个人邮箱:lium@pcl.ac.cn。
内容介绍:
启智AI协作平台提供了基于云脑1 GPU集群和云脑2 NPU集群的异构算力接入,本次技术分享将和大家分享该技术是如何实现的,以及相比于集群原有算力平台,启智平台通过技术研发为用户提供了哪些便捷性。本次分享也将帮助AI开发者更好地了解如何使用启智平台提供的算力资源。
视频下载地址
B站视频观看地址
讲座PPT下载地址
讲座1题目:智算网络系统层工作报告
分享人:刘瑾
分享人介绍:鹏城实验室开源所网络智能集群系统软件子课题成员,负责开源章鱼系统开发和维护,联系方式:liuj@pcl.ac.cn
内容介绍:
智算网络将分散在各地智算中心链接在一起,从而形成统一的智算资源池。加入智算网络的各智算中心贡献了算力,同时也共享算力,在面对大型计算任务时,有效解决算力需求。目前智算网络已聚集了各类智算中心的加入,其中包括:鹏城云脑一号,鹏城云脑儿号,北大人工智能集群系统,合肥类脑智能开放平台,武汉华为计算中心集群,西安华为计算中心集群等,同时还有来自其他地域的算力中心正在接入中。未来将实现更大的算力聚合。
由于本次分享内容保密性高,没有进行视频直播
视频下载地址
讲座2题目:智算网络——协同计算
分享人:张艳
分享人介绍:大模型技术组,目前主要研究智算网络下,数据不出本地,模型参数可安全交换的协同训练的场景。尤其是对异构集群、异构框架下的协同训练场景。个人邮箱:zhangy03@pcl.ac.cn。
内容介绍:
协同训练是在确保各机构数据隐私的前提下,数据所有方利用本地算力进行协同学习,学习过程中彼此之间不交换原始数据,即可达到甚至优于将数据集中起来训练后的模型性能。云际学习平台上一个分布式学习平台,通过分布式人工智能训练机制实现分布式学习,可以有效解决数据样本数量少、模型算法特例多、数据隐私等问题。研究的核心是在智算网络算力、存储以及通信资源条件下,研究如何提高分布式协同计算的效率与模型精度,包括整体架构、通信效率,融合策略,成本模型等技术与标准,以及在具体场景下的应用赋能。
由于本次分享内容保密性高,没有进行视频直播
视频下载地址
讲座题目:基于多方安全计算技术的隐私保护机器学习介绍
分享人:罗景龙
分享人介绍:鹏城实验室云际联邦智能计算系统课题成员,负责多方安全联邦学习中间件HiStar的算法优化创新和开发维护的相关工作;研究兴趣为机器学习中的隐私保护、联邦学习。个人邮箱:luojl@pcl.ac.cn。
内容介绍:
当前人们在进行机器学习尤其是深度学习任务时发现必须面临的一个关键问题是需要更多的数据来获得更高的模型性能。但是这些额外数据经常由多方持有,因法律监管、商业利益等原因,人们无法直接共享这些敏感数据,但是大家还都希望从性能更好的模型中获益。我们将能够解决这一需求的机器学习方法称为“隐私保护机器学习”。在“隐私保护机器学习”的诸多技术路线中,密码学多方安全计算(Multi-party Computation, MPC)技术,因其理论上的可证明安全受到学术界和工业界的广泛关注。本次分享将为大家介绍基于MPC技术的隐私保护机器学习系统的整体框架以及具体的隐私保护算法设计的相关内容。
由于本次分享现场设备问题,没有进行视频直播
讲座PPT下载地址
讲座题目:联邦学习概述与开源框架FedLab介绍
分享人:曾趸
分享人介绍:电子科技大学计算机科学与技术博士研究生,研究方向为联邦学习分布式优化与通信压缩。联系方式:zengdun@std.uestc.edu.cn
内容介绍:
由谷歌最先提出的联邦学习近来成为机器学习研究中一个迅速发展的领域。联邦学习的目标是在分布式机器学习中保护个体数据隐私,尤其是金融领域、智能医疗以及边缘计算领域。不同于传统的数据中心式的分布式机器学习,联邦学习中的参与者利用本地数据训练本地模型,然后利用具体的聚合策略结合从其他参与者学习到的知识,来合作生成最终的模型。这种学习方式避免了直接分享数据的行为。
为了减轻研究者实现联邦学习算法的负担,我们开发了灵活的轻量级联邦学习框架FedLab。FedLab为联邦学习的模拟实验提供了必要的模块,包括通信、压缩、模型优化、数据切分,及其他功能性模块。本次分享主要介绍联邦学习在模型优化和通信压缩等方面的挑战,以及联邦学习开源框架FedLab是如何支持研究者快速实现idea验证。
视频地址
视频下载地址
讲座PPT下载地址
如果这项工作对你有帮助,请引用以下论文:
@article{smile2021fedlab,
title={FedLab: A Flexible Federated Learning Framework},
author={Dun Zeng, Siqi Liang, Xiangjing Hu and Zenglin Xu},
journal={arXiv preprint arXiv:2107.11621},
year={2021}
}
讲座题目:神经网络剪枝方法概述与基于搜索的混合剪枝方法介绍
分享人:吴宇航
分享人介绍:鹏城实验室开源所开源算法研究室成员,负责AutoML与神经网络模型压缩算法的开发。联系方式:derekwu2020@stu.xmu.edu.cn
内容介绍:
模型剪枝是神经网络模型压缩方向中的一类方法,其主要目的是减少神经网络的运算量消耗与内存占用。模型剪枝根据其操作的粒度可以分为五个层级,分别是权重级的稀疏和模式剪枝,卷积核级的连接性剪枝,通道级的1:n剪枝和通道剪枝。从流程上来说经典的剪枝方法一般具有三个部分,预训练,剪枝和微调。也有一些方法将三者中的某两个甚至三者融合。
以往的剪枝方法,大都采用一种重要性标准,然而cv模型的不同层往往具有不同分布,此时过去的方法就会出现一定程度上的错剪误剪,造成性能下降。而混合剪枝方法则针对这一问题,采用多种剪枝标准混合的方法,在每层采用不同标准进行剪枝,以此达到在更高压缩率的基础上维持更好的精度。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:非自回归机器翻译相关研究进展
分享人:耿昕伟博士
分享人介绍:哈尔滨工业大学计算机科学与技术博士研究生,研究方向为自然语言处理,自回归/非自回归机器翻译。现在鹏城实验室开源所网络智能开源软件体系与平台统一深度学习编程框架及算法库子课题工作,“丝路”翻译系统的开发人员。联系邮箱:xwgeng@ir.hit.edu.cn
内容介绍:
基于编码器-解码器的神经机器翻译与统计机器翻译相比在多个翻译任务上已经取得显著的成果,其底层网络结构经历从循环神经网络(RNN)、卷积神经网络(CNN)到自注意力网络(SAN)的变迁。虽然从底层结构、训练准则以及数据增强多个方面对网络架构进行改进从而提升翻译质量,但是由于其自回归翻译的特性导致翻译的速度受到制约。非自回归机器翻译不需要建模上下文的依存关系从而可以并行预测所有的目标语言词汇从而显著提升翻译的速度,但是其翻译的质量与自回归翻译存在差距。本次分享将首先对传统的自回归模型进行回顾,然后介绍非自回归机器翻译的基本架构以及多种代表性的非自回归的改进工作。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:多视角多维度视觉算法库
项目1: EllipseNet: Anchor-Free Ellipse Detection for Automatic Cardiac Biometrics in Fetal Echocardiography
项目2: Towards Unbiased COVID-19 Lesion Localisation and Segmentation via Weakly Supervised Learning
分享人:庄嘉鑫
分享人介绍:中山大学计算机技术专业硕士,现于鹏城实验室网络智能研究部,负责计算机视觉算法相关工作。联系邮箱:lincolnz9511@gmail.com
内容介绍:
多视角多维度视觉算法库从四维时空(3D+Time)数据分析出发,实现标准切面导航、病灶分割、目标检测、自动测量等基本功能。本算法库将以时序心脏影像分析作为应用示范,覆盖多视角2D图像、3D影像以及点云等模态数据的智能分析方法。鉴于精细的标注数据较难获得,及人工标注可能存在误差,将从弱监督、自监督学习的复杂多视角建模。该框架争取两年内覆盖不少于20个算法的多种编程框架,目前正在根据需求逐步增加SOTA算法。本次分享将介绍发表在医学影像会议上的椭圆检测和心脏自动测量算法、弱监督定位和分割算法,以及相关的自监督学习算法。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:基于字形的文本表示方法
分享人:侯永帅博士
分享人介绍:哈尔滨工业大学计算机应用技术专业博士,现于鹏城实验室基础技术研究室,负责自然语言处理算法研发。联系邮箱:houysh@pcl.ac.cn
内容介绍:
目前针对中文的自然语言处理方法大多是以字符ID形式作为输入,通过字符的上下文来学习字符的语义表示,很少考虑中文字符的字形特性,没有很好利用汉字字形蕴含的语义信息。本次分享介绍一种基于汉字字形特征的文本表示方法以及基于该方法的预训练语言模型和翻译模型的实现。通过在9个NLU任务上对预训练语言模型的实验验证和在6个不同语种的翻译模型的实验验证,使用字形特征可有效提升模型在目标任务上的性能。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:MindSpore 并行训练技术
分享人:陶恒韬
分享人介绍:武汉邮电科学研究院信号与信息处理硕士,现于鹏城实验室基础技术研究室,负责大模型的并行训练和优化、多语言大模型、可持续学习等。联系邮箱:taoht@pcl.ac.cn
内容介绍:
MindSpore深度学习框架作为全国产软硬件协同生态中重要的一环,为“鹏城云脑Ⅱ”的使用和发挥效能提供了有力支撑。本次分享以鹏程盘古α的分布式并行训练经验为基础探讨MindSpore支持的并行训练解决方案,包括数据并行、算子级模型并行、Pipeline并行、优化器并行等并行训练技术,以及梯度累积、混合精度训练、图算融合、异构并行等性能优化方案,结合在盘古α和Transformer模型上的混合并行实现和效率优化,为模型训练效率和性能的提升提供思路和借鉴。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:大模型压缩方法在云脑2的实现
分享人:易泽轩
分享人介绍:中国传媒大学通信与信息系统硕士毕业,现于鹏城实验室大模型研究子课题工作,负责大模型的在线推理部署和并行算法优化。联系邮箱:yizx@pcl.ac.cn
内容介绍:
炼大模型的时代,如GPT-3、AlphaFold等超大规模模型的规模迅速增长,大模型成功的背后是庞大数据和算力的支持。很多研究工作者和企业没有充足的算力来部署巨额参数量模型,急需将大模型压缩,得到精度相当,部署条件相对简易的压缩模型,以加速模型的应用落地。本次分享将介绍大规模预训练语言模型压缩相关方法,包括量化、剪枝、蒸馏等,以及在云脑2压缩大模型的工程实现,为得到易于部署的压缩模型提供思路和技术方案。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:容器云平台调度器方案简介
分享人:李俊茂
分享人介绍:北京大学计算机应用技术专业硕士毕业,现在鹏城实验室网络智能部开源所,负责章鱼系统开发和维护工作。
内容介绍:
容器云平台对任务调度有各类限制,譬如某些服务必须在业务独享的机器上运行,或者从灾备的角度考虑尽量把服务调度到不同机器。调度器通过结合节点资源、负载情况、数据位置等各种因素进行调度判断,确保在满足场景需求的同时将任务分配到最优节点。本次分享主要介绍一些知名的基于Kubernetes的开源调度器方案。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:鹏程·通言—基于稀疏激活与增量训练的多语翻译模型
分享人:张晗
分享人介绍:鹏城实验室-哈尔滨工业大学联培博士生,网络智能部门开源所大模型子课题组,研究方向为自然语言处理中的机器翻译与语言模型的预训练技术。联系方式: zhangh04@pcl.ac.cn
内容介绍:
"通言"多语言机器翻译模型旨在为“一带一路”建设提供语言服务支撑,让“语言通”成为一带一路”五通的基础与依托。目前"通言"模型支持包括中文和十七种“一带一路”语言的任意方向互译,平均翻译性能相比标准transformer模型提升19% (BLEU值)。“通言”模型预训练采用了更加节约能耗的增量式方法,模型结构采用基于稀疏激活的混合专家策略,参数量达到132亿,其推理速度与十分之一参数量的模型相当。“通言”还提供新语言的可持续学习方案,学习新语言时对旧语言翻译的遗忘率控制在1-2%,在一定程度克服了“灾难性遗忘”的问题。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:预训练大模型并行训练加速技术
分享人:张艳
分享人介绍:深圳大学信号与信息处理硕士毕业,现在鹏城实验室开源所大模型技术研究室,主要负责预训练大模型并行训练技术的研究。联系邮箱:zhangy03@pcl.ac.cn
内容介绍:
目前制约我们高效训练大模型是硬件上的一些限制,比如计算资源、网络通信、存储资源等,本次分享从数据并行、模型并行、pipeline并行、zero、分布式矩阵乘法等方面介绍大模型训练一些并行加速的技术。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:预训练大模型的应用技术
分享人:蒋芳清
分享人介绍:中南大学硕士研究生毕业,鹏城实验室网络智能部开源技术研究所成员,负责大模型、知识图谱、自然语言处理的研发工作。
内容介绍:
盘古系列大模型是在超大规模数据上训练预训练模型,具备强大的基础能力。基于模型应用的目标,整理了盘古系列大模型的应用技术框架,从算法到应用提供baseline和示范应用,形成了盘古系列大模型应用的技术生态。本次分享从技术层面介绍盘古大模型的应用方法以及相应的baseline和示范应用,提高模型应用者的使用效率。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:TensorLayer中Transformer组件实现简介
分享人:韩佳容
分享人介绍:国防科技大学模式识别与智能系统专业硕士毕业。鹏城实验室网络智能部开源技术研究所成员,负责统一深度学习编程框架开发。邮箱:hanjr@pcl.ac.cn
内容介绍:
Transformer是一个完全基于注意力机制的编解码器模型,在任务表现、并行能力和易于训练性方面都有大幅的提高。本次分享以transformer的算法思想与模型结构为切入点,介绍transformer组件在统一编程框架tensorlayer中的实现方式,分享在不同后端提供相关组件的灵活调用方法,使用组件有助于降低语言模型编写重复工作量,提高开发效率。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:半自动标注系统介绍
分享人:邹安平
分享人介绍:武汉大学计算机学院软件理论专业硕士毕业,鹏程实验室网络智能开源所开源生态与技术室成员,负责标注系统及启智社区后端开发,邮箱:zouap@pcl.ac.cn
内容介绍:
想要模型效果好,数据质量是关键,而好的数据都是通过标注系统标注得来的,本次分享主要介绍鹏城实验室自研的半自动标注系统的架构及相关功能,包括模型管理,自动标注,人工标注,视频标注,超大图像标注,模型重训等,本标注系统已经在Github及Ihub上开源,有了一定的使用用户,同时调研了一些同行的一些标注软件,在此基础上提出后续标注系统的发展方向。
讲座PPT下载地址
讲座题目:自动并行技术简介
分享人:王进
分享人介绍:北京邮电大学信息与通信工程专业硕士毕业,鹏城实验室网络智能部开源所-AI大模型技术子课题成员,负责深度学习模型高效分布式训练方向的研发工作。邮箱:wangj05@pcl.ac.cn
内容介绍:
自动并行技术研究如何将深度学习算法在AI集群上实现高效的自动化分布式模型训练。本次分享从分布式深度学习综述出发,介绍包括算法逻辑、并行逻辑、通信模式、网络拓扑等在内的整体框架,分享现有自动并行框架的技术架构、性能对比,以及针对并行搜索空间建模、搜索性能提升等问题的分析思考。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:OpenI启智社区活动策划
分享人:邓清
分享人介绍:哈尔滨工业大学硕士毕业,现在鹏城实验室网络智能部开源所-社区运营子课题,负责OpenI启智社区运营工作。联系邮箱:dengq@pcl.ac.cn
内容介绍:
本次主要介绍OpenI启智社区近年各类型开源活动的发展情况与开源成果,分享启智社区运营团队在探索创新性开源生态建设模式过程中的各种经验与感悟,就未来启智社区各项开源活动的策划与各位开发者进行讨论。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:CubeAI简介
分享人:联通智立方专家
内容介绍:
CubeAI智立方是中国联通研究院自主研发的集AI模型自动化服务封装、发布、共享、部署和能力开放等功能于一体的开源AI算能服务平台,其核心作用在于打通AI模型开发至实际生产应用之间的壁垒,加速AI创新和应用进程,促进AI应用从设计、开发直到部署、运营整个生命周期的自动化快速迭代和演进。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:大数据处理平台实践
分享人:邓凌风
分享人介绍:武汉大学计算机软件与理论专业硕士毕业,现在鹏城实验室网络智能部开源所,负责大数据处理平台的研发工作。联系邮箱:denglf@pcl.ac.cn
内容介绍:
启智数据处理平台是启智社区面向AI开发者提供的大数据分析和处理平台,平台基于Spark、Hdfs、ElasticSearch等开源组件,结合人工智能领域的数据处理经验搭建,研发AI数据处理工具和数据自动处理系统,致力于解决AI训练的大规模训练数据分析和处理问题。平台为AI开发者提供分布式计算资源调度、分布式计算框架和AI相关的高效数据处理工具集,并抽象通用流程构建全流程数据处理架构,帮助AI开发者在不了解分布式编程架构的条件下也能利用平台进行大规模数据的高效处理和分析,为AI训练提供高质量的训练数据集。平台成功支持鹏程·盘古的多个TB级大数据处理任务,并在内部不断孵化发展中。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:鹏程·盘古简介
分享人:颜达森
分享人介绍:深圳大学计算机科学与技术专业硕士毕业,现在鹏城实验室网络智能部开源所,负责大模型的开发和大模型算法库的研发工作。邮箱:yands@pcl.ac.cn
内容介绍:
鹏程·盘古是业界首个2000亿超大参数中文预训练模型。由鹏城实验室联合有关单位技术团队组建的「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“鹏程·盘古”。模型在16个下游任务中大部分指标优于SOTA模型,其中零样本学习任务11个任务领先,单样本学习任务12个任务领先,小样本学习任务13个任务领先。代码、模型以及在线体验服务已经在OpenI 启智社区全部开源开放。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:OpenI启智章鱼简介
分享人:刘瑾
分享人介绍: 鹏城实验室开源所网络智能集群系统软件子课题成员,负责开源章鱼系统开发和维护,联系方式:liuj@pcl.ac.cn
内容介绍:
启智章鱼项目是一款开源面向 AI 模型开发的集群管理平台,面向 AI 模型生产的生命周期,提供了数据集管理、镜像管理、算法管理、训练、部署等功能,方便用户一站式构建AI算法,另外平台还提出了“工作空间”概念,满足不同用户群体的资源使用与管理述求,方便平台管理者更好的管理资源集群。同时结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:启智OpenI开发协作平台
分享人:徐春香博士
分享人介绍: 北京大学信息科学技术学院博士毕业,现在鹏城实验室开源所开源协同与生态技术研究室,负责启智OpenI协作开发平台的研发工作。联系邮箱:xuchx@pcl.ac.cn
内容介绍:
OpenI开发协作平台是启智社区面向AI开发者提供的一站式AI开发协作平台,提供了代码托管、数据集管理、基于异构计算资源的模型开发等功能。
代码托管基于广泛使用的git技术,方便开发者进行代码版本管理;数据集管理提供了大文件的管理和共享;同时面向底层异构的计算资源,基于Web提供了统一的入口,支持GPU和华为ASCEND NPU芯片上的模型调试、训练、评测和推理任务。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:联邦学习中间件HiStar简介
分享人:秦爽
分享人介绍: 清华大学电子与通信工程硕士毕业,现在鹏城实验室开源所云际联邦子课题工作,负责云际联邦学习框架开发和维护。联系邮箱:qinsh@pcl.ac.cn
分享内容介绍:
HiStar是由鹏城实验室联邦学习中间件研发团队自主研发的鹏城云脑联邦深度学习中间件,致力于解决人工智能领域面临的数据孤岛以及隐私安全问题,以安全聚合、多方安全计算等多种主流的隐私保护策略为技术手段,提供非侵入式、适用于端边云架构、性能-安全可综合调控、多场景适用的深度学习隐私保护方案。通过HiStar联邦学习中间件,开发人员只需要在原有深度学习代码中添加三行代码,便可以将其转换为可以实现支持多方协同训练且对训练数据进行有效保护的联邦学习训练模型代码。
视频地址
视频下载地址
讲座PPT下载地址
讲座题目:TensorLayer简介
分享人:赖铖
分享人介绍:鹏城实验室开源所统一编程框架子课题成员,负责兼容多种深度学习框架的深度学习统一编程库的开发和维护,联系方式:laich@pcl.ac.cn
分享内容介绍:
TensorLayer是一款兼容多种深度学习框架后端的深度学习库,支持TensorFlow、MindSpore、PaddlePaddle为计算引擎。TensorLayer提供了数据处理、模型构建、模型训练等深度学习全流程API,同一套代码可以通过一行代码设置后端从切换不同的计算引擎。在工程开发中,有效减少深度学习框架之间算法迁移需要重构代码的繁琐工作。
视频地址
视频下载地址
讲座PPT下载地址
如果这项工作对你有帮助,请引用以下论文
@inproceedings{tensorlayer2021,
title={Tensorlayer 3.0: A Deep Learning Library Compatible With Multiple Backends},
author={Lai, Cheng and Han, Jiarong and Dong, Hao},
booktitle={2021 IEEE International Conference on Multimedia \& Expo Workshops (ICMEW)},
pages={1--3},
year={2021},
organization={IEEE}
}