Browse Source

更新 'README.md'

master
xiaoxiong 1 month ago
parent
commit
0f0cbb465c
1 changed files with 528 additions and 0 deletions
  1. +528
    -0
      README.md

+ 528
- 0
README.md View File

@@ -1,2 +1,530 @@
# RiSAWOZ中文多领域任务型对话数据集

## 数据集介绍

RiSAWOZ是一个具有丰富语义信息标注的大规模中文多领域任务型对话数据集,它包含1.12万个已标注的人-人多轮对话,总对话轮数超过15万轮,覆盖12个领域。其中,单领域和多领域的对话分别占数据集的65%和35%。每个对话都进行了广泛的对话信息标注,包括以自然语言描述的对话目标、所属领域、对话状态以及用户和系统双方的对话动作信息。除了以上的对话标注信息之外,RiSAWOZ还提供了关于对话语篇现象(省略和共指)的语言学标注,该标注信息对解决对话中的省略和共指问题具有重要价值。

## 数据预览

```
\[
{
"dialogue_id": "attraction\_goal\_4-63###6177",
"goal": "attraction\_goal\_4-63: 你是苏州人,但不怎么出去玩。你朋友来苏州找你,你准备带他逛逛“水乡古镇”,你希望客服给你推荐个消费水平“中等”的地方。然后你要问清楚这地方“是否地铁直达”、“特点”、“门票价格”这些信息。最后,你要感谢客服的帮助,然后说再见。",
"domains": \[
"旅游景点"
\],
"dialogue": \[
{
"turn_id": 0,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "你好,我是苏州人,但是不怎么出去玩,我朋友来苏州找我了,我准备带他逛逛水乡古镇,你能帮我推荐一下吗?",
"system_utterance": "推荐您去周庄古镇。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇"
},
"turn_inform": {
"旅游景点-景点类型": "水乡 古镇"
},
"turn request": \[\]
},
"user_actions": \[
\[
"Inform",
"旅游景点",
"景点类型",
"水乡 古镇"
\],
\[
"Greeting",
"旅游景点",
"",
""
\]
\],
"system_actions": \[
\[
"Recommend",
"旅游景点",
"名称",
"周庄 古镇"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为8",
"{'名称': '周庄古镇', '区域': '昆山', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '偏贵', '是否地铁直达': '否', '门票价格': '100元', '电话号码': '400-8282900', '地址': '苏州市昆山市周庄镇全福路43号', '评分': 4.5, '开放时间': '07:30-18:50', '特点': '小桥流水与人家,双桥水巷摇橹船,还有沈万三的足迹待你寻访'}",
"{'名称': '同里古镇', '区域': '吴江', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '偏贵', '是否地铁直达': '否', '门票价格': '100元', '电话号码': '0512-63325728', '地址': '苏州市吴江区同里古镇', '评分': 4.5, '开放时间': '07:30-17:30', '特点': '五湖环抱的江南水乡古镇,走三桥,参观小巧精致的园林退思园。'}",
"{'名称': '山塘街', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-65314467', '地址': '苏州市姑苏区古城西北', '评分': 4.5, '开放时间': '08:30-21:00', '特点': '欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。'}",
"{'名称': '平江路', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-69163907', '地址': '江苏省苏州市姑苏区白塔东路65号', '评分': 4.5, '开放时间': '全天', '特点': '漫步保存完整的古街区,看小桥流水古宅,逛文艺小店,吃美食。'}",
"{'名称': '木渎古镇', '区域': '吴中区', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '便宜', '是否地铁直达': '否', '门票价格': '免费', '电话号码': '0512-66514042', '地址': '苏州市吴中区木渎镇山塘街188号', '评分': 4.4, '开放时间': '08:30-17:00', '特点': '以园林为特色的古镇,游严家花园等古典园林,坐船看小桥流水。'}",
"{'名称': '甪直古镇', '区域': '吴中区', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '便宜', '是否地铁直达': '否', '门票价格': '免费', '电话号码': '0512-66191668', '地址': '苏州市吴中区甪直镇晓市路21号', '评分': 4.3, '开放时间': '07:30-17:30', '特点': '甪直古镇有2500多年历史,甪直境内水流纵横,桥梁密布,有五湖之厅、六泽之冲之称。'}",
"{'名称': '千灯古镇', '区域': '昆山', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '便宜', '是否地铁直达': '否', '门票价格': '免费', '电话号码': '0512-57472155', '地址': '苏州市昆山市千灯古镇尚书路1号', '评分': 4.3, '开放时间': '08:00-17:00', '特点': '千灯古镇,距今已有2500多年的历史,古镇白墙黑瓦,昆韵盎然。'}",
"{'名称': '锦溪古镇', '区域': '昆山', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '中等', '是否地铁直达': '否', '门票价格': '65元', '电话号码': '0512-57224669', '地址': '苏州市昆山市锦溪镇邵甸港路18号', '评分': 4.4, '开放时间': '08:00-17:00', '特点': '锦溪古镇位于昆山南郊的淀山湖畔,是一座有千年历史的江南水乡。'}"
\],
"segmented\_user\_utterance": "你好 , 我 是 苏州人 , 但是 不怎么 出去玩 , 我 朋友 来 苏州 找 我 了 , 我 准备 带 他 逛逛 水乡 古镇 , 你 能 帮 我 推荐 一下 吗 ?",
"segmented\_system\_utterance": "推荐 您 去 周庄 古镇 。"
},
{
"turn_id": 1,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "我希望这个地方消费水平适中的,这个是中等的吗?",
"system_utterance": "这个不是,我又重新帮您找了一家山塘街。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇",
"旅游景点-消费": "中等"
},
"turn_inform": {
"旅游景点-消费": "中等"
},
"turn request": \[\]
},
"user_actions": \[
\[
"Inform",
"旅游景点",
"消费",
"中等"
\]
\],
"system_actions": \[
\[
"Recommend",
"旅游景点",
"名称",
"山塘 街"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为3",
"{'名称': '山塘街', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-65314467', '地址': '苏州市姑苏区古城西北', '评分': 4.5, '开放时间': '08:30-21:00', '特点': '欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。'}",
"{'名称': '平江路', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-69163907', '地址': '江苏省苏州市姑苏区白塔东路65号', '评分': 4.5, '开放时间': '全天', '特点': '漫步保存完整的古街区,看小桥流水古宅,逛文艺小店,吃美食。'}",
"{'名称': '锦溪古镇', '区域': '昆山', '景点类型': '水乡古镇', '最适合人群': '朋友出游', '消费': '中等', '是否地铁直达': '否', '门票价格': '65元', '电话号码': '0512-57224669', '地址': '苏州市昆山市锦溪镇邵甸港路18号', '评分': 4.4, '开放时间': '08:00-17:00', '特点': '锦溪古镇位于昆山南郊的淀山湖畔,是一座有千年历史的江南水乡。'}"
\],
"segmented\_user\_utterance": "我 希望 这个 地方 消费水平 适中 的 , 这个 是 中等 的 吗 ?",
"segmented\_system\_utterance": "这个 不是 , 我 又 重新 帮 您 找 了 一家 山塘 街 。"
},
{
"turn_id": 2,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "听这地方应该挺好玩,他们家特点是什么?",
"system_utterance": "特点是欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇",
"旅游景点-消费": "中等",
"旅游景点-名称": "山塘 街"
},
"turn_inform": {
"旅游景点-名称": "山塘 街"
},
"turn request": \[
"特点"
\]
},
"user_actions": \[
\[
"Inform",
"旅游景点",
"名称",
"山塘 街"
\],
\[
"Request",
"旅游景点",
"特点",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"特点",
"欣赏 苏州 老城 风貌 , 参观 会馆 等 古迹 , 乘 游船 , 拍摄 美丽 的 夜景"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '山塘街', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-65314467', '地址': '苏州市姑苏区古城西北', '评分': 4.5, '开放时间': '08:30-21:00', '特点': '欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。'}"
\],
"segmented\_user\_utterance": "听 这 地方 应该 挺好玩 , 他们 家 特点 是 什么 ?",
"segmented\_system\_utterance": "特点 是 欣赏 苏州 老城 风貌 , 参观 会馆 等 古迹 , 乘 游船 , 拍摄 美丽 的 夜景 。"
},
{
"turn_id": 3,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "听起来很不错,他们家门票是多少?",
"system_utterance": "门票免费。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇",
"旅游景点-消费": "中等",
"旅游景点-名称": "山塘 街"
},
"turn_inform": {},
"turn request": \[
"门票价格"
\]
},
"user_actions": \[
\[
"Request",
"旅游景点",
"门票价格",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"门票价格",
"免费"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '山塘街', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-65314467', '地址': '苏州市姑苏区古城西北', '评分': 4.5, '开放时间': '08:30-21:00', '特点': '欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。'}"
\],
"segmented\_user\_utterance": "听 起来 很 不错 , 他们 家 门票 是 多少 ?",
"segmented\_system\_utterance": "门票 免费 。"
},
{
"turn_id": 4,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "还行,那他们家是否有地铁直达呢?",
"system_utterance": "嗯嗯,可以地铁直达。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇",
"旅游景点-消费": "中等",
"旅游景点-名称": "山塘 街"
},
"turn_inform": {},
"turn request": \[
"是否地铁直达"
\]
},
"user_actions": \[
\[
"Request",
"旅游景点",
"是否地铁直达",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"是否地铁直达",
"是"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '山塘街', '区域': '姑苏区', '景点类型': '水乡古镇', '最适合人群': '情侣约会', '消费': '中等', '是否地铁直达': '是', '门票价格': '免费', '电话号码': '0512-65314467', '地址': '苏州市姑苏区古城西北', '评分': 4.5, '开放时间': '08:30-21:00', '特点': '欣赏苏州老城风貌,参观会馆等古迹,乘游船,拍摄美丽的夜景。'}"
\],
"segmented\_user\_utterance": "还 行 , 那 他们 家 是否 有 地铁 直达 呢 ?",
"segmented\_system\_utterance": "嗯 嗯 , 可以 地铁 直达 。"
},
{
"turn_id": 5,
"turn_domain": \[
"通用"
\],
"user_utterance": "谢谢你的帮助,再见!",
"system_utterance": "再见。",
"belief_state": {
"inform slot-values": {
"旅游景点-景点类型": "水乡 古镇",
"旅游景点-消费": "中等",
"旅游景点-名称": "山塘 街"
},
"turn_inform": {},
"turn request": \[\]
},
"user_actions": \[
\[
"Bye",
"通用",
"",
""
\]
\],
"system_actions": \[
\[
"Bye",
"通用",
"",
""
\]
\],
"db_results": \[\],
"segmented\_user\_utterance": "谢谢 你 的 帮助 , 再见 !",
"segmented\_system\_utterance": "再见 。"
}
\]
},
{
"dialogue_id": "attraction\_goal\_3-33_v2###7307",
"goal": "attraction\_goal\_3-33: 你和朋友一起来苏州出差,顺便想去“苏州乐园森林水世界”逛一逛。因此,你要询问客服这个地方“是否地铁直达”、“评分”、“特点”这些信息。最后,你向客服表示感谢,结束对话。",
"domains": \[
"旅游景点"
\],
"dialogue": \[
{
"turn_id": 0,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "你好,我和朋友一起来苏州出差,顺便想去苏州乐园森林水世界玩玩,能否帮我看看这个地方是否有地铁直达呢?",
"system_utterance": "稍等,很抱歉,没有地铁能直接到这个景点呢。",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn request": \[
"是否地铁直达"
\]
},
"user_actions": \[
\[
"Inform",
"旅游景点",
"名称",
"苏州 乐园 森林 水 世界"
\],
\[
"Request",
"旅游景点",
"是否地铁直达",
""
\],
\[
"Greeting",
"旅游景点",
"",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"是否地铁直达",
"否"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '苏州乐园森林水世界', '区域': '高新区', '景点类型': '游乐场', '最适合人群': '情侣约会', '消费': '偏贵', '是否地铁直达': '否', '门票价格': '198元', '电话号码': '0512-68717107', '地址': '苏州市高新区阳山东路以西,山神湾路以东', '评分': 4.4, '开放时间': '09:00-17:00', '特点': '各项水上娱乐项目皆具森林特色,被赋予森林主题,让人身处浩瀚森林又能享受到海洋般的舒爽水游乐。'}"
\],
"segmented\_user\_utterance": "你好 , 我 和 朋友 一 起来 苏州 出差 , 顺便 想 去 苏州 乐园 森林 水 世界 玩玩 , 能否 帮 我 看看 这个 地方 是否 有 地铁 直达 呢 ?",
"segmented\_system\_utterance": "稍 等 , 很 抱歉 , 没有 地铁 能 直接 到 这个 景点 呢 。"
},
{
"turn_id": 1,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "你再帮我看看景点的评分好吗?",
"system_utterance": "这个景点的评分是4.4分。",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {},
"turn request": \[
"评分"
\]
},
"user_actions": \[
\[
"Request",
"旅游景点",
"评分",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"评分",
"4.4"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '苏州乐园森林水世界', '区域': '高新区', '景点类型': '游乐场', '最适合人群': '情侣约会', '消费': '偏贵', '是否地铁直达': '否', '门票价格': '198元', '电话号码': '0512-68717107', '地址': '苏州市高新区阳山东路以西,山神湾路以东', '评分': 4.4, '开放时间': '09:00-17:00', '特点': '各项水上娱乐项目皆具森林特色,被赋予森林主题,让人身处浩瀚森林又能享受到海洋般的舒爽水游乐。'}"
\],
"segmented\_user\_utterance": "你 再 帮 我 看看 景点 的 评分 好 吗 ?",
"segmented\_system\_utterance": "这个 景点 的 评分 是 4.4 分 。"
},
{
"turn_id": 2,
"turn_domain": \[
"旅游景点"
\],
"user_utterance": "这个景点有啥特点呢?",
"system_utterance": "这个景点的特点是各项水上娱乐项目皆具森林特色,被赋予森林主题,让人身处浩瀚森林又能享受到海洋般的舒爽水游乐。",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {},
"turn request": \[
"特点"
\]
},
"user_actions": \[
\[
"Request",
"旅游景点",
"特点",
""
\]
\],
"system_actions": \[
\[
"Inform",
"旅游景点",
"特点",
"各项 水上 娱乐 项目 皆 具 森林 特色 , 被 赋予 森林 主题 , 让 人 身处 浩瀚 森林 又 能 享受 到 海洋 般的 舒爽 水 游乐 。"
\]
\],
"db_results": \[
"数据库检索结果:成功匹配个数为1",
"{'名称': '苏州乐园森林水世界', '区域': '高新区', '景点类型': '游乐场', '最适合人群': '情侣约会', '消费': '偏贵', '是否地铁直达': '否', '门票价格': '198元', '电话号码': '0512-68717107', '地址': '苏州市高新区阳山东路以西,山神湾路以东', '评分': 4.4, '开放时间': '09:00-17:00', '特点': '各项水上娱乐项目皆具森林特色,被赋予森林主题,让人身处浩瀚森林又能享受到海洋般的舒爽水游乐。'}"
\],
"segmented\_user\_utterance": "这个 景点 有 啥 特点 呢 ?",
"segmented\_system\_utterance": "这个 景点 的 特点 是 各项 水上 娱乐 项目 皆 具 森林 特色 , 被 赋予 森林 主题 , 让 人 身处 浩瀚 森林 又 能 享受 到 海洋 般的 舒爽 水 游乐 。"
},
{
"turn_id": 3,
"turn_domain": \[
"通用"
\],
"user_utterance": "太好了,我觉得我会很喜欢这个地方,哈哈。",
"system_utterance": "这个景点挺不错的,就是没有地铁需要您乘坐其它交通工具了。",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {},
"turn request": \[\]
},
"user_actions": \[
\[
"General",
"通用",
"",
""
\]
\],
"system_actions": \[
\[
"General",
"通用",
"",
""
\]
\],
"db_results": \[\],
"segmented\_user\_utterance": "太好了 , 我 觉得 我会 很 喜欢 这个 地方 , 哈哈 。",
"segmented\_system\_utterance": "这个 景点 挺不错 的 , 就是 没有 地铁 需要 您 乘坐 其它 交通工具 了 。"
},
{
"turn_id": 4,
"turn_domain": \[
"通用"
\],
"user_utterance": "我打出租车去吧,就是多花点车费,没事。",
"system_utterance": "请问您还有其他问题吗?",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {},
"turn request": \[\]
},
"user_actions": \[
\[
"General",
"通用",
"",
""
\]
\],
"system_actions": \[
\[
"General",
"通用",
"",
""
\]
\],
"db_results": \[\],
"segmented\_user\_utterance": "我 打 出租车 去 吧 , 就是 多花点 车费 , 没事 。",
"segmented\_system\_utterance": "请问 您 还有 其他 问题 吗 ?"
},
{
"turn_id": 5,
"turn_domain": \[
"通用"
\],
"user_utterance": "没有了。谢谢你,再见。",
"system_utterance": "再见。",
"belief_state": {
"inform slot-values": {
"旅游景点-名称": "苏州 乐园 森林 水 世界"
},
"turn_inform": {},
"turn request": \[\]
},
"user_actions": \[
\[
"Bye",
"通用",
"",
""
\]
\],
"system_actions": \[
\[
"Bye",
"通用",
"",
""
\]
\],
"db_results": \[\],
"segmented\_user\_utterance": "没有 了 。 谢谢 你 , 再见 。",
"segmented\_system\_utterance": "再见 。"
}
\]
}
\]
```

## 数据集引用

如在学术论文中使用该数据集,请添加相关引用说明,具体如下:

RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich Semantic Annotations for Task-Oriented Dialogue Modeling [论文地址](https://aclanthology.org/2020.emnlp-main.67.pdf)

Loading…
Cancel
Save