莱斯杯机器阅读理解数据集
莱斯杯机器阅读理解 本次竞赛将提供面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。每个问题对应五篇候选文章,问题与篇章中的答案证据句间存在较大的语法与句式变化。需要在多篇章定位与深度理解的基础上,从存在干扰项的多篇文章中搜寻出最优答案,更富挑战性的是问题的答案可能需要结合至少两篇文章的相关内容,进行关联推断才能够准确得出。 数据清洗后,24615个问题,24615个段落,不能回答的问题个数为0。数据清洗时,将文本用句号分割,选择最多5句,作为段落内容。
数据集展示
"data": [
{
"title": "",
"id": "cail_paragraphs_0",
"paragraphs": [
{
"context": "经审查,原告提供的证据1-3、被告中华联合广东分公司提供的证据4-5、被告万友公司提供的证据6,各方对其真实性均没有异议,本院对其真实性予以确认综合本院采信的证据及当事人的陈述,本院认定以下事实:2015年6月1日,田x17驾驶粤A×××××号车辆与严x3驾驶的赣C×××××号重型仓栅式货车发生碰撞,造成两车不同程度损坏的交通事故交警部门作出事故认定书,认定严x3承担事故的全部责任,田x17不负事故责任粤A×××××号车辆在原告处投保了保险金额为908000元的机动车损失保险,事故发生在保险期间内事故发生后,粤A×××××号车辆的被保险人陈x18就该车辆的损失以财产保险合同纠纷起诉至佛山市禅城区人民法院案经审理,佛山市禅城区人民法院于2015年8月18日作出(2015)佛城法民二初字第1006号民事判决,查明粤A×××××号车辆经广州市华盟价格事务所有限公司评估,损失价格为241541元,陈x18支付了粤A×××××号车辆的维修费241541元、评估费9050元;本案原告在庭审中明确表示不申请重新对车辆损失进行评估鉴定并判决原告向陈x18支付粤A×××××号车辆损失保险理赔款250591元2015年10月11日,原告向陈x18赔付了250591元及诉讼费用2529元后原告提起本案之诉并查明,赣C×××××号车辆的所有人为被告万友公司,该车辆在被告中华联合广东分公司处投保了交强险,事故发生在保险期内事故发生后,被告中华联合广东分公司向该车辆的被保险人许x19赔付了2000元诉讼中,被告徐11确认其为该车辆的实际支配人,严x3是被告徐11雇请,是从事派遣工作过程中发生案涉交通事故被告徐11与被告万友公司签订《车辆挂靠合同书》,被告万友公司同意被告徐11就赣C×××××号车辆挂靠被告万友公司名下",
"qas": [
{
"question": "事故结果如何?",
"id": "cail_question_0",
"is_impossible": false,
"answers": [
{
"text": "两车不同程度损坏",
"answer_start": 153
}
]
},
{
"question": "事故由谁承担什么责任?",
"id": "cail_question_1",
"is_impossible": false,
"answers": [
{
"text": "严x3承担事故的全部责任,田x17不负事故责任",
"answer_start": 180
}
]
},
{
"question": "投保人所投保险险种?",
"id": "cail_question_2",
"is_impossible": false,
"answers": [
{
"text": "机动车损失保险",
"answer_start": 233
}
]
},
{
"question": "向原告投保的人所投保险的保险金额是多少?",
"id": "cail_question_3",
"is_impossible": false,
"answers": [
{
"text": "908000元",
"answer_start": 225
}
]
},
{
"question": "牌号为粤A×××××号的车辆是何种类型?",
"id": "cail_question_4",
"is_impossible": true,
"answers": []
}
]
}
]
},
常见的机器阅读理解任务可以分为四种类型:完形填空、多项选择、片段抽取和自由回答;本次整理的机器阅读理解数据,仅为片段抽取任务类型数据。
清洗数据描述
将上述数据进行简单地数据清洗以及格式(sqaud格式)转换操作,为了方便读取;具体格式如下:
数据读取
def read_mrc_data(path):
with open(path, "r", encoding="utf-8") as fh:
input = json.load(fh)["data"]
for i, entry in enumerate(tqdm(input, desc="iter", disable=False)):
for para in entry["paragraphs"]:
context = para["context"]
print("context:", context)
for qa in para["qas"]:
qas_id = qa["id"]
question_text = qa["question"]
print("question_text:", question_text)
if len(qa["answers"]) != 0:
for answer in qa["answers"]:
answer_text = answer["text"]
answer_start = answer["answer_start"]
print("answer_text:", answer_text)
print("answer_start:", answer_start)
print("*"*30)
exit()
path = "data/medicine_data.json"
read_mrc_data(path)
结果:
context: "胆石症的治疗应区别不同情况分别处理,无症状胆囊结石可不作治疗,但应定期观察并注意良好的饮食习惯。有症状的胆囊结石仍以胆囊切除术为较安全有效的疗法,此外,尚可采用体外震波碎石。胆管结石宜采用以手术为主的综合治疗。胆石症的家庭治疗可采用以下方法:\n(1)一般治疗 预防和治疗肠道寄生虫病和肠道感染,以降低胆石症的发病率。胆绞痛发作期应禁食脂肪等食物,采用高碳水化合物流质饮食;缓解期应忌食富含胆固醇的食物如脑、肝、肾、蛋黄等。\n(2)增进胆汁排泄 可选用50%硫酸镁10~15毫升,餐后口服,每日3次;胆盐每次口服0.5~1克,每日3次;去氢胆酸0.25克,每日3次,餐后服用。\n(3)消除胆绞痛 轻者可卧床休息,右上腹热敷,用硝酸甘油酯0.6毫克,每3~4小时一次,含于舌下;或阿托品0.5毫克,每3~4小时肌肉注射一次。重者应住院治疗。\n(4)排石疗法以中药治疗为主,若右上腹疼痛有间歇期,无明显发热及黄疸,苔薄白,脉弦,属气滞者,用生大黄6克、木香9克、枳壳9克、金钱草30克、川楝子9克、黄苓9克,水煎服。右上腹痛为持续性,且阵发性加剧,有明显发热及黄疸,舌红苔黄,
question_text: 什么类型的胆囊结石可不作治疗?
answer_text: 无症状胆囊结
answer_start: 19
question_text: 胆石症的治疗应注意什么?
answer_text: 应区别不同情况分别处理
answer_start: 7
question_text: 胆管结石宜采用什么样的治疗方式?
answer_text: 以手术为主的综合治疗
answer_start: 95