Llama2-Chinese

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

使用llama.cpp量化部署

以llama.cpp工具为例，介绍模型量化并在本地部署的详细步骤。Windows则可能需要cmake等编译工具的安装。本地快速部署体验推荐使用经过指令精调的Atom-7B-Chat模型，有条件的推荐使用6-bit或者8-bit模型，效果更佳。 运行前请确保：

$ git clone https://github.com/Rayrtfr/llama.cpp

$ make

Windows/Linux用户如需启用GPU推理，则推荐与BLAS（或cuBLAS如果有GPU）一起编译，可以提高prompt处理速度。以下是和cuBLAS一起编译的命令，适用于NVIDIA相关GPU。参考：llama.cpp#blas-build

$ make LLAMA_CUBLAS=1

macOS用户无需额外操作，llama.cpp已对ARM NEON做优化，并且已自动启用BLAS。M系列芯片推荐使用Metal启用GPU推理，显著提升速度。只需将编译命令改为：LLAMA_METAL=1 make，参考llama.cpp#metal-build

$ LLAMA_METAL=1 make

目前llama.cpp已支持.safetensors文件以及huggingface格式.bin转换为GGUF的FP16格式。

/path/Atom-7B-Chat是模型下载的目录位置。

$ python convert.py --outfile ./atom-7B-cpp.gguf  /path/Atom-7B-Chat

$ ./quantize ./atom-7B-cpp.gguf ./ggml-atom-7B-q4_0.gguf q4_0

如果想使用GPU推理：cuBLAS/Metal编译需要指定offload层数，在./main中指定例如-ngl 40表示offload 40层模型参数到GPU

使用以下命令启动聊天。

text="<s>Human: 介绍一下北京\n</s><s>Assistant:"
./main -m \
./ggml-atom-7B-q4_0.gguf \
-p "${text}"  \
--logdir ./logtxt

如果要带聊天的上下文，上面的text需要调整成类似这样：

text="<s>Human: 介绍一下北京\n</s><s>Assistant:北京是一个美丽的城市</s>\n<s>Human: 再介绍一下合肥\n</s><s>Assistant:"

No Description

CSV Markdown Python other

2384172887@qq.com 139942525+FlagAlpha@users.noreply.github.com 45086558+ZHangZHengEric@users.noreply.github.com zhangzheng@atomecho.xyz khj.application@aliyun.com 139942525+LlamaFamily@users.noreply.github.com zhangzheng@atomechoxyz wuyongyu@atomecho.xyz 92130911+stormdragongardin@users.noreply.github.com 767740262@qq.com zhangzheng@baize.com ec2-user@ip-172-16-30-196.ec2.internal eltociear@gmail.com 107687616+MAiTlx@users.noreply.github.com 869335729@qq.com MackDing@users.noreply.github.com linjiazhen@coremesh.net jiangkerman@outlook.com wen.wang@impulseonline.cn chaolinjin@gmail.com wanghenan09@gmail.com