LCCC开放域短文本对话数据集
数据集介绍
LCCC是一个大规模中文开放域短文本对话数据集,旨在考察模型在闲聊场景中,是否可以生成流畅的、与上下文相关的对话回复。
数据预览
该数据集的任务定义如下:
给定对话历史H(u_1, u_2, …, u_t-1)
要求参评系统预测:符合对话历史,且自然流畅、信息丰富的机器回复u_t。
{
"kg": [
[
"沈阳",
"2018-12-24",
"晴, 西南风, 最高气温:2℃, 最低气温:-12℃"
],
[
"糖醋排骨",
"成分",
"猪肋排、姜片、葱、生抽、糖、醋、料酒、八角。"
],
[
"糖醋排骨",
"类型",
"热菜"
],
[
"晴, 西南风, 最高气温:2℃, 最低气温:-12℃",
"适合吃",
"糖醋排骨"
],
[
"大清花饺子(十一纬路店)",
"特色菜",
"糖醋排骨"
],
[
"大清花饺子(十一纬路店)",
"评分",
"4.8"
],
[
"大清花饺子(十一纬路店)",
"人均价格",
"50"
],
[
"大清花饺子(十一纬路店)",
"地址",
"沈河区十一纬路198号(近南二经街)"
],
[
"大清花饺子(十一纬路店)",
"订单量",
"1405"
]
],
"user_profile": {
"职业状态": "工作",
"同意的新闻": " 何炅 的新闻",
"没有接受的音乐": [
" 还有我",
"心火烧"
],
"喜欢的音乐": " 另一个自己",
"年龄区间": "大于50",
"拒绝": " 电影",
"喜欢的明星": " 何炅",
"接受的音乐": [
" 向前奔跑",
"思念的距离",
"我是大侦探",
"希望爱",
"现在爱",
"再见",
"一路走过"
],
"居住地": "沈阳",
"喜欢的poi": " 大清花饺子(十一纬路店)",
"姓名": "陈轩奇",
"同意的美食": " 糖醋排骨",
"性别": "男"
},
"conversation": [
"[1]今天是什么天气?",
"今天沈阳: 晴, 西南风, 最高气温:2℃, 最低气温:-12℃,天气有点冷,注意保暖。",
"你知道的真多。",
"[2]这种天气温适合吃 『糖醋排骨』了呢。",
"糖醋排骨可是我最喜欢的美食,真想现在就去吃糖醋排骨呢。",
"[3]我正好知道有一家店,推荐您在 『大清花饺子(十一纬路店)』 订糖醋排骨。",
"这家店的地址在哪里?",
"这家店的地址:沈河区十一纬路198号(近南二经街)",
"人均价格是多少?",
"人均价格50元。",
"评分是多少?",
"评分是4.8",
"今天中午12点半我一个人去吃,我预定一下。",
"好的,这就为您预定。",
"[4]先去准备一下,再见",
"好的,再见,祝你生活愉快!"
],
"goals": "[1]问天气(User主动,User问天气,根据给定知识,Bot回复完整的天气信息,User满足并好评)-->[2]美食推荐(Bot主动推荐,这种天气温适合吃 『糖醋排骨』, User接受。需要聊2轮)-->[3]poi推荐(Bot主动,Bot推荐在 『大清花饺子(十一纬路店)』 订 『糖醋排骨』, User问 『大清花饺子(十一纬路店)』 的『人均价格』、『地址』、『评分』,Bot逐一回答后,最终User接受并提供预订信息:『就餐时间』 和 『就餐人数』)-->[4]再见",
"situation": "聊天时间:2018-12-24 中午12:00,在公司 星期一"
}
数据集引用
如在学术论文中使用该数据集,请添加相关引用说明,具体如下:
Yida Wang, Pei Ke, Yinhe Zheng, Kaili Huang, Yong Jiang, Xiaoyan Zhu, Minlie Huang. 2020. A Large-Scale Chinese Short-Text Conversation Dataset. In NLPCC论文地址