Browse Source

更新 'README.md'

master
xiaoxiong 1 month ago
parent
commit
cb94ce819f
1 changed files with 62 additions and 0 deletions
  1. +62
    -0
      README.md

+ 62
- 0
README.md View File

@@ -1,2 +1,64 @@
# CDConv中文对话一致性检测数据集

## 数据集介绍

CDConv是第一个高质量中文对话一致性检测数据集,包含12K对话Session,覆盖多轮对话中的句内冲突、角色混淆、历史冲突等全面丰富的对话冲突类型。该数据采用一系列方法,通过模拟常见的用户行为来自动触发聊天机器人产生对话冲突,然后由人工标注得到具体冲突类型。聊天机器人采用领先的中文对话机器人百度PLATO和清华EVA。该数据集关注多轮对话中的内部冲突,更符合对话任务特点,可用于对话冲突检测和对话质量改善等相关研究。

## 数据预览

数据样例展示如下: ![](https://fanyiapp.cdn.bcebos.com/cms/image/34ea603a1be7ba4dafd5ea4b780c4157.png )

数据统计信息

| — | EVA | PLATO | Total |
| --- | --- | --- | --- |
| 对话Session(全部对话) | 5,458 | 6,202 | 11,660 |
| 正例Session(无冲突对话) | 3,233 | 4,076 | 7,309 |
| 负例Session(有冲突对话) | 2,225 | 2,126 | 4,351 |

| 触发方法 | — | — | — |
| --- | --- | --- | --- |
| 短句:u2为无信息量的短句 | 1,121/395 | 1,121/395 | 1,121/395 |
| 设问-bot:u2对b1中的实体信息提问 | 1,609/983 | 1,609/983 | 1,609/983 |
| 设问-user:u2对u1中的实体信息提问 | 258/222 | 258/222 | 258/222 |
| 设问-user(-M):u2对u1中的实体信息提问 | 728/1,093 | 728/1,093 | 728/1,093 |
| 同义-回译:将u1翻译成英文、再回译成中文 | 1,808/837 | 1,808/837 | 1,808/837 |
| 同义-同义词:替换u1中的词为同义词 | 664/292 | 664/292 | 664/292 |
| 反义-反义词:替换u1中的词为反义词 | 504/246 | 504/246 | 504/246 |
| 反义-否定词:在u1中插入否定词 | 617/283 | 617/283 | 617/283 |

| 冲突类型 | — | — | — |
| --- | --- | --- | --- |
| 句内矛盾 | 12.20% | 12.20% | 12.20% |
| 角色混淆 | 17.60% | 17.60% | 17.60% |
| 与对话历史矛盾 | 70.20% | 70.20% | 70.20% |

数据统计信息

| 人设类型 | — | — | — |
| --- | --- | --- | --- |
| 人物属性 | 47.70% | 47.70% | 47.70% |
| 人物观点和偏好 | 21.50% | 21.50% | 21.50% |
| 人物经历 | 28.60% | 28.60% | 28.60% |
| 其它 | 2.20% | 2.20% | 2.20% |

数据说明:
```
{
    u1 : USER的第1句话;
    b1 : BOT的第1句话;
    u2 : USER的第2句话;
    b2 : BOT的第2句话;
    model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型(编码器-解码器模型,各24层、共2.8B参数;plato为32层版本的模型,共1.6B参数);
    method : 表示u2的构造方法;
(短句:u2为无信息量的短句; 设问-bot:u2对b1中的实体信息提问; 设问-user(-v2):u2对u1中的实体信息提问; 同义-回译:将u1翻译成英文、再回译成中文;同义-同义词:替换u1中的词为同义词; 反义-反义词:替换u1中的词为反义词; 反义-否定词:在u1中插入否定词);
    label : 表示矛盾类型标注(0:无矛盾,1:b2句内矛盾,2:b2角色混淆,3:b2与对话历史矛盾);
    persona : 表示从人设角度,对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1:人物属性,2:人物观点和偏好,3:人物经历,0:其他);
}
```

## 数据集引用

如在学术论文中使用该数据集,请添加相关引用说明,具体如下:

Chujie Zheng, Jinfeng Zhou, Yinhe Zheng, Libiao Peng, Zhen Guo, Wenquan Wu, Zhengyu Niu, Hua Wu, Minlie Huang. CDConv: A Benchmark for Contradiction Detection in Chinese Conversations. EMNLP 2022.[论文地址](https://arxiv.org/abs/2210.08511)

Loading…
Cancel
Save