|
|
@@ -1,2 +1,22 @@ |
|
|
|
# DuRecDial2.0中英双语平行对话推荐数据集 |
|
|
|
|
|
|
|
## 数据集介绍 |
|
|
|
|
|
|
|
DuRecDial 2.0是第一个大规模中英双语平行的对话推荐数据集,包含5种对话类型(闲聊、对话推荐、知识对话、任务对话、QA)、6个领域(明星、电影、音乐、美食、POI、天气)、16.5k个对话和255k个utterance,采用Wizard-of-Oz方式人工构建。在每个对话中,推荐者(bot)使用丰富的交互行为,主动引导一个多类型对话不断接近推荐目标。DuRecDial 2.0旨在考察模型是否可以在对话过程中基于用户兴趣以及用户的实时反馈,主动给用户做出合理的推荐。DuRecDial 2.0可支持单语言对话推荐、多语言对话推荐和跨语言对话推荐任务。 |
|
|
|
|
|
|
|
## 数据预览 |
|
|
|
|
|
|
|
该数据集的任务定义如下: |
|
|
|
1.单语言对话推荐:给定单语言(比如中文)对话目标g、单语言(比如中文)知识信息M、单语言(比如中文)用户Profile (画像)P、单语言(比如中文)对话场景S、单语言(比如中文)对话历史H(u\_1, u\_2, …, u\_t-1) 要求参评系统预测:符合对话历史和对话目标序列,且自然流畅、信息丰富的单语言(比如中文)机器回复u\_t。 |
|
|
|
2.多语言对话推荐:给定中英双语对话目标g、中英双语知识信息M、中英双语用户Profile (画像)P、中英双语对话场景S、中英双语对话历史H(u\_1, u\_2, …, u\_t-1) 要求参评系统预测:符合对话历史和对话目标序列,且自然流畅、信息丰富的中英双语机器回复u\_t。 |
|
|
|
3.跨语言对话推荐:给定特定语言(比如中文)对话目标g、特定语言(比如中文)知识信息M、特定语言(比如中文)用户Profile (画像)P、特定语言(比如中文)对话场景S、另一种语言(比如英文)对话历史H(u\_1, u\_2, …, u\_t-1) 要求参评系统预测:符合对话历史和对话目标序列,且自然流畅、信息丰富的特定语言(比如种文)机器回复u\_t。 |
|
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
|
|
|
## 数据集引用 |
|
|
|
|
|
|
|
如在学术论文中使用该数据集,请添加相关引用说明,具体如下: |
|
|
|
|
|
|
|
Zeming Liu, Haifeng Wang, Zheng-Yu Niu, Hua Wu, and Wanxiang Che. 2021. DuRecDial 2.0: A Bilingual Parallel Corpus for Conversational Recommendation. In EMNLP.[论文地址](https://aclanthology.org/2021.emnlp-main.356/) |
|
|
|
|