xiaoxiong cb94ce819f 更新 'README.md'		1 year ago
README.md	更新 'README.md'	1 year ago

README.md

CDConv中文对话一致性检测数据集

CDConv中文对话一致性检测数据集

数据集介绍

CDConv是第一个高质量中文对话一致性检测数据集，包含12K对话Session，覆盖多轮对话中的句内冲突、角色混淆、历史冲突等全面丰富的对话冲突类型。该数据采用一系列方法，通过模拟常见的用户行为来自动触发聊天机器人产生对话冲突，然后由人工标注得到具体冲突类型。聊天机器人采用领先的中文对话机器人百度PLATO和清华EVA。该数据集关注多轮对话中的内部冲突，更符合对话任务特点，可用于对话冲突检测和对话质量改善等相关研究。

数据预览

数据样例展示如下：

数据统计信息

—	EVA	PLATO	Total
对话Session(全部对话)	5,458	6,202	11,660
正例Session(无冲突对话)	3,233	4,076	7,309
负例Session(有冲突对话)	2,225	2,126	4,351

触发方法	—	—	—
短句：u2为无信息量的短句	1,121/395	1,121/395	1,121/395
设问-bot：u2对b1中的实体信息提问	1,609/983	1,609/983	1,609/983
设问-user：u2对u1中的实体信息提问	258/222	258/222	258/222
设问-user(-M)：u2对u1中的实体信息提问	728/1,093	728/1,093	728/1,093
同义-回译：将u1翻译成英文、再回译成中文	1,808/837	1,808/837	1,808/837
同义-同义词：替换u1中的词为同义词	664/292	664/292	664/292
反义-反义词：替换u1中的词为反义词	504/246	504/246	504/246
反义-否定词：在u1中插入否定词	617/283	617/283	617/283

冲突类型	—	—	—
句内矛盾	12.20%	12.20%	12.20%
角色混淆	17.60%	17.60%	17.60%
与对话历史矛盾	70.20%	70.20%	70.20%

数据统计信息

人设类型	—	—	—
人物属性	47.70%	47.70%	47.70%
人物观点和偏好	21.50%	21.50%	21.50%
人物经历	28.60%	28.60%	28.60%
其它	2.20%	2.20%	2.20%

数据说明：

{  
    u1 : USER的第1句话；  
    b1 : BOT的第1句话；  
    u2 : USER的第2句话；  
    b2 : BOT的第2句话；  
    model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型（编码器-解码器模型，各24层、共2.8B参数;plato为32层版本的模型，共1.6B参数)；  
    method : 表示u2的构造方法；  
(短句：u2为无信息量的短句； 设问-bot：u2对b1中的实体信息提问； 设问-user(-v2)：u2对u1中的实体信息提问； 同义-回译：将u1翻译成英文、再回译成中文;同义-同义词：替换u1中的词为同义词； 反义-反义词：替换u1中的词为反义词； 反义-否定词：在u1中插入否定词)；  
    label : 表示矛盾类型标注(0：无矛盾，1：b2句内矛盾，2：b2角色混淆，3：b2与对话历史矛盾)；  
    persona : 表示从人设角度，对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1：人物属性，2：人物观点和偏好，3：人物经历，0：其他)；  
}

数据集引用

如在学术论文中使用该数据集，请添加相关引用说明，具体如下：

Chujie Zheng, Jinfeng Zhou, Yinhe Zheng, Libiao Peng, Zhen Guo, Wenquan Wu, Zhengyu Niu, Hua Wu, Minlie Huang. CDConv: A Benchmark for Contradiction Detection in Chinese Conversations. EMNLP 2022.论文地址

No Description

other

How to access data resources in code

README.md

CDConv中文对话一致性检测数据集

数据集介绍

数据预览

数据集引用

Contributors (1) All

Contributors (1)
All