History

单机多卡、`模型并行`方式训练`thu/chatglm6b`模型

介绍

本文件夹在v1simple_thu_chatglm6b的基础上，添加了单机多卡的训练代码：
模型并行（将大模型的各个层分别放在多个显卡上）
同时，结合lora算法、fp16精度、使用checkpoint等方法，可以在文本长度为1024、batchsize=4的情况下，在两个T4显卡上跑的很快乐（显卡的显存最大为16G，但是实际上卡1用了8G，卡2用了11G），甚至batchsize还可以提高。
虽然thu/chatglm6b也给了基于p-tuning的微调代码，但是和我这个单机多卡比起来，dddd（懂得都懂），各取所需吧。

和v1一样

为了有条理性，我把这个模型的所有代码全部都放在📁thuglm文件夹下。

但是，你在从github上下载我这个仓库后，是看不到这几个文件的：

你需要从https://huggingface.co/THUDM/chatglm-6b/tree/main 这里把上面列举的文件下载下来。

注意查看，在这个链接里面，每个文件后面都有一个下载的箭头

下载后，把下载的文件都放在thuglm文件夹下面，然后和我的截图比对一下，是不是有什么出入。

到这里，模型部分就解决了。

git clone https://github.com/hikariming/alpaca_chinese_dataset.git

这个代码主要分下面几个部分

其实这个代码和v1版本的代码差不多，就是在模型加载和转换部分，和v1不一样。
不知道是modeling_chatglm.py代码写的有问题，还是在加载模型的时候出现bug，反正就是很奇怪，只能让你手动分配。
另外，我基于pytorch的模型并行思路，还对modeling_chatglm.py里面的模型的forward方法，做了调整，让每个网络层的input数据自动切换到该网络层所在的设备上。

No Description

CSV Jupyter Notebook Python

yuanzhoulvpi@outlook.com 30610553+yuanzhoulvpi2017@users.noreply.github.com