Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
zhangy03 ce0b361744 | 1 year ago | |
---|---|---|
resource/fig | 2 years ago | |
.gitignore | 2 years ago | |
README.md | 1 year ago |
中文|English
鹏城·盘古对话生成大模型(PanGu-Dialog)。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用大规模预训练语言模型的知识和语言能力,构建可控、可靠可信、有智慧的自然人机对话模型。主要特性如下:
基于鹏城·盘古预训练语言的大规模中文对话模型,采用多阶段持续训练的方式在对话数据进行学习,充分利用训练语言模型语言能力和知识。整个训练框架如下图所示,PLM实际为鹏城·盘古模型,多数据是指收集的多源的对话数据,统一任务格式和Prompt tune和持续学习采用与鹏城·盘古增强版一致的方法。
在开放领域对话系统中,对话质量的评估是一个重要问题。主要的评估方式有两类:静态(Static Evaluation)、交互式(Selfchat or Human-bot)。静态评估是在测试集上进行,主要可以用来评估模型的学习能力。交互式评估主要通过机机(Selfchat)或人机(Human-bot)交对话的方式进行评估,以反映生成对话的质量,由于Human-bot评估需要大量人力,本项目中田暂只进行Selfchat方式的交互式评估。
静态评估就是在测试数据集上进行评估,在预设好的multi-turn context下生成回答,将生成的回答与标注的回答进行对比以评估回复质量。对比模型:选取了开源的开放域中文对话生成模型CDilalGPT、EVA、EVA2作为对比模型。评测数据:分别在中文对话数据集STC单轮、Kdconv多轮对其进行了评测实验。评测指标:采用BLEU和F1来衡量对话回复与真实回复的相关性,采用Dist-n指标来衡量生成回复的多样性。评测结果:如下表,表中”paper”表示论盘古2.6B,1024最大序列长度。decoder only,简单高效、生成能力更强、预训练更简单。
基于鹏城·盘古预训练语言的大规模中文对话模型,采用多阶段持续训练的方式在对话数据进行学习,充分利用训练语言模型语言能力和知识。整个训练框架如下图所示,PLM实际为鹏城·盘古模型,多数据是指收集的多源的对话数据,统一任务格式和Prompt tune和持续学习采用与鹏城·盘古增强版一致的方法。
在开放领域对话系统中,对话质量的评估是一个重要问题。主要的评估方式有两类:静态(Static Evaluation)、交互式(Selfchat or Human-bot)。静态评估是在测试集上进行,主要可以用来评估模型的学习能力。交互式评估主要通过机机(Selfchat)或人机(Human-bot)交对话的方式进行评估,以反映生成对话的质量,由于Human-bot评估需要大量人力,本项目中田暂只进行Selfchat方式的交互式评估。
静态评估就是在测试数据集上进行评估,在预设好的multi-turn context下生成回答,将生成的回答与标注的回答进行对比以评估回复质量。对比模型:选取了开源的开放域中文对话生成模型CDilalGPT、EVA、EVA2作为对比模型。评测数据:分别在中文对话数据集STC单轮、Kdconv多轮对其进行了评测实验。评测指标:采用BLEU和F1来衡量对话回复与真实回复的相关性,采用Dist-n指标来衡量生成回复的多样性。评测结果:如下表,表中”paper”表示论文中公开的测试结果,”FT github”表示github上公开的finetune后的结果,”\”表示未测试。
Selfchat是为每个对话都以预定义的第一轮提示开始,然后对话模型同时扮演用户和机器人进行对话,再通过人工对每轮回复标注打分。对比模型:选取了最新开放域中文对话生成模型EVA2,2.8B模型参数,EVA2是2022年以来最优秀且开源的开放域中文对话模型之一。PLATO系列最新版本的模型也是非常优秀的开放域中文对话模型,但由于未开源中文版本,所以未能加入对比。
除了上述对话回复通用质量评测,我们还针对性测试了不同对话模型的知识性、对话安全性、智慧的能力。
模型文件 | Md5 | 大小 | 参数配置 |
---|---|---|---|
pangu_dialog_fp16_2b6.zip | *** | 4.6G | num-layers : 31 hidden-size : 2560 num-attention-heads : 32 |
pangu_dialog_fp16_2b6 # 模型目录
-- iter_0001000 # 迭代次数目录
--mp_rank_00 # 模型并行时各个 GPU 的目录
--model_optim_rng.pt # 模型文件
--latest_checkpointed_iteration.txt # 记录 ckpt 的迭代次数文件
注:num-layers
等于 Pangu 项目中的 num-layers - 1
bash scripts/pangu_dialog_infer.sh
注:鹏城·盘古-Dialog模型使用的重复抑制方法待整理成文后开源相关代码,推理结果可能会有差异但不会太大。
bash scripts/pangu_dialog_tune.sh
支持 python >= 3.6, pytorch >= 1.5, cuda >= 10, nccl >= 2.6, and nltk。
推荐使用英伟达的官方 docker 镜像docker pull nvcr.io/nvidia/pytorch:20.03-py3
。
下面给出一些鹏城·盘古-Dialog交互的对话样例,由于随机采样和不同硬件的随机函数可能不同,可能无法复现样例。
正在添加中
本对话模型仅限科研用途。模型训练数据集中的对话收集自不同的来源,虽然我们设计了一套严格的数据清洗流程,但是我们并不保证所有不当内容均已被过滤。该数据中所包含的所有内容和意见与本项目作者无关。 本项目所提供的模型和代码仅为完整对话系统的一个组成部分,我们所提供的解码脚本仅限科研用途,使用本项目中的模型和脚本所生成的一切对话内容与本项目作者无关。
鹏城.盘古对话生成大模型,简称PanGu-Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。
other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》