LLM-Research/ModelEvolution: 大模型训练过程版本演化分析及工具开源问题：Open Issues in Analysis and Tools for the Evolution of LLM Version in Training Process - ModelEvolution - OpenI - 启智AI开源社区提供普惠算力！

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

History

taoht 1007629187 first update		7 months ago
..
docs	first update	7 months ago

README.md	first update	7 months ago

README.md

研究方向推荐

PengCheng.Mind 又称鹏城·脑海是鹏城实验室开发、开源、开放的基于Transformer架构的自回归式语言模型。模型全流程基于中国算力网的全自主安全可控国产软硬件平台进行开发和训练，采用MindSpore框架实现在大规模集群上长期稳定的多维分布式并行训练。鹏城·脑海模型主要聚焦中文核心能力，兼顾英文和部分多语言能力。当前模型已完成训练1T Tokens数据量，仍在持续训练迭代中。

研究方向推荐

1、如何选择训练数据种类、数据配比、数据输入方式以最大化模型学习速度？
2、模型确定的情况下，新增数据对于大模型的训练是否有用，如何度量？输入多少数据后，能使模型的训练充分？

模型结构

结构参数	N(params)	N(layers)	D(model)	N(heads)	D(head)	seq_length	vocab_size
PengCheng.Mind 200B	201.1 B	104	12672	96	132	4096	49984

N: number 数目
D: dimension 维度

训练策略

软硬件环境	数据并行	模型并行	流水线并行	优化器并行	位置编码
Ascend 910A + MindSpore2.0beta	48	4	18	16	ROPE

超参数配置

批大小	优化器	beta1	beta2	学习率	dropout
3072	adam	0.9	0.96~0.98	5e-5~5e-6	0.1

模型文件及代码仓

鹏城·脑海模型申请

鹏城·脑海代码仓

训练过程数据

1、模型训练收敛曲线

2、模型训练0-150b token数据分布

3、模型训练150-330b token数据分布

4、模型训练330-530b token数据分布

大模型训练过程版本演化分析及工具开源问题：Open Issues in Analysis and Tools for the Evolution of LLM Version in Training Process

Python

hit-liuxin@163.com

taoht@pcl.ac.cn d106@buaa.com

How to access data resources in code