Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
xiaoxiong 8433038418 | 1 year ago | |
---|---|---|
README.md | 1 year ago |
DuIE2.0是业界规模最大的中文关系抽取数据集,其schema在传统简单关系类型基础上添加了多元复杂关系类型,此外其构建语料来自百度百科、百度信息流及百度贴吧文本,全面覆盖书面化表达及口语化表达语料,能充分考察真实业务场景下的关系抽取能力。
该任务的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。根据O值的复杂程度可以将目标关系划分为以下两种:
1.简单O值:
也就是说O是一个单一的文本片段。例如,「妻子」关系的schema定义为:
{S_TYPE:人物,P:妻子,O_TYPE:{@value:人物}}
简单O值是最常见的关系类型。为了保持格式统一,简单O值类型的schema定义也通过结构体保存,结构体中只有一个@value字段存放O值。
2.复杂O值:
也就是说O是一个结构体,由多个语义明确的文本片段共同组成,多个文本片段对应了结构体中的多个槽位 (slot)。例如,「饰演」关系中O值有两个槽位@value和inWork,分别表示「饰演的角色是什么」以及「在哪部影视作品中发生的饰演关系」,其schema定义为:
{S_TYPE:娱乐人物,P:饰演,O_TYPE:{@value:角色,inWork:影视作品}}
在复杂O值类型的定义中,@value槽位可以认为是该关系的默认O值槽位,对于该关系不可或缺,其他槽位均可缺省。
关系抽取输入/输出:
输入:一个或多个连续完整句子。
输出:句子中包含的所有符合给定schema约束的SPO三元组。
输入示例:
{
"text": "王雪纯是87版《红楼梦》中晴雯的配音者,她是《正大综艺》的主持人"
}
输出示例:
{
"text": "王雪纯是87版《红楼梦》中晴雯的配音者,她是《正大综艺》的主持人",
"spo_list": [
{
"predicate": "配音",
"subject": "王雪纯",
"subject_type": "娱乐人物",
"object": {
"@value": "晴雯",
"inWork": "红楼梦"
},
"object_type": {
"@value": "人物",
"inWork": "影视作品"
}
},
{
"predicate": "主持人",
"subject": "正大综艺",
"subject_type": "电视综艺",
"object": {
"@value": "王雪纯"
},
"object_type": {
"@value": "人物"
}
}
]
}
如在学术论文中使用该数据集,请添加相关引用说明,具体如下:
Li S., et al. (2019) DuIE: A Large-Scale Chinese Dataset for Information Extraction. In: Tang J., Kan MY., Zhao D., Li S., Zan H. (eds.) Natural Language Processing and Chinese Computing. NLPCC 2019. Lecture Notes in Computer Science, vol 11839. Springer, Cham.论文地址
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》