Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
xiaoxiong cb94ce819f | 1 year ago | |
---|---|---|
README.md | 1 year ago |
CDConv是第一个高质量中文对话一致性检测数据集,包含12K对话Session,覆盖多轮对话中的句内冲突、角色混淆、历史冲突等全面丰富的对话冲突类型。该数据采用一系列方法,通过模拟常见的用户行为来自动触发聊天机器人产生对话冲突,然后由人工标注得到具体冲突类型。聊天机器人采用领先的中文对话机器人百度PLATO和清华EVA。该数据集关注多轮对话中的内部冲突,更符合对话任务特点,可用于对话冲突检测和对话质量改善等相关研究。
数据统计信息
— | EVA | PLATO | Total |
---|---|---|---|
对话Session(全部对话) | 5,458 | 6,202 | 11,660 |
正例Session(无冲突对话) | 3,233 | 4,076 | 7,309 |
负例Session(有冲突对话) | 2,225 | 2,126 | 4,351 |
触发方法 | — | — | — |
---|---|---|---|
短句:u2为无信息量的短句 | 1,121/395 | 1,121/395 | 1,121/395 |
设问-bot:u2对b1中的实体信息提问 | 1,609/983 | 1,609/983 | 1,609/983 |
设问-user:u2对u1中的实体信息提问 | 258/222 | 258/222 | 258/222 |
设问-user(-M):u2对u1中的实体信息提问 | 728/1,093 | 728/1,093 | 728/1,093 |
同义-回译:将u1翻译成英文、再回译成中文 | 1,808/837 | 1,808/837 | 1,808/837 |
同义-同义词:替换u1中的词为同义词 | 664/292 | 664/292 | 664/292 |
反义-反义词:替换u1中的词为反义词 | 504/246 | 504/246 | 504/246 |
反义-否定词:在u1中插入否定词 | 617/283 | 617/283 | 617/283 |
冲突类型 | — | — | — |
---|---|---|---|
句内矛盾 | 12.20% | 12.20% | 12.20% |
角色混淆 | 17.60% | 17.60% | 17.60% |
与对话历史矛盾 | 70.20% | 70.20% | 70.20% |
数据统计信息
人设类型 | — | — | — |
---|---|---|---|
人物属性 | 47.70% | 47.70% | 47.70% |
人物观点和偏好 | 21.50% | 21.50% | 21.50% |
人物经历 | 28.60% | 28.60% | 28.60% |
其它 | 2.20% | 2.20% | 2.20% |
数据说明:
{
u1 : USER的第1句话;
b1 : BOT的第1句话;
u2 : USER的第2句话;
b2 : BOT的第2句话;
model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型(编码器-解码器模型,各24层、共2.8B参数;plato为32层版本的模型,共1.6B参数);
method : 表示u2的构造方法;
(短句:u2为无信息量的短句; 设问-bot:u2对b1中的实体信息提问; 设问-user(-v2):u2对u1中的实体信息提问; 同义-回译:将u1翻译成英文、再回译成中文;同义-同义词:替换u1中的词为同义词; 反义-反义词:替换u1中的词为反义词; 反义-否定词:在u1中插入否定词);
label : 表示矛盾类型标注(0:无矛盾,1:b2句内矛盾,2:b2角色混淆,3:b2与对话历史矛盾);
persona : 表示从人设角度,对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1:人物属性,2:人物观点和偏好,3:人物经历,0:其他);
}
如在学术论文中使用该数据集,请添加相关引用说明,具体如下:
Chujie Zheng, Jinfeng Zhou, Yinhe Zheng, Libiao Peng, Zhen Guo, Wenquan Wu, Zhengyu Niu, Hua Wu, Minlie Huang. CDConv: A Benchmark for Contradiction Detection in Chinese Conversations. EMNLP 2022.论文地址
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》