Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
xiaoxiong 6ffb8d43c1 | 1 year ago | |
---|---|---|
README.md | 1 year ago |
中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字,该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小,覆盖领域单一,词级别拼写错误缺失等问题。因此,我们推出了多领域的中文拼写纠错数据集(Multi Domain Chinese Spelling Check,MD-CSC)。具体来说,我们收集了包括法律、医疗、公文写作三个领域相关的公开语料,并结合现有的多种输入法,人工标注了8000多条中文句对(源句-目标句)。其中,源句可能包含拼写错误的句子,目标句为正确句子。该数据集的主要特色为:1)覆盖领域多,包括法律、医疗、公文写作三个领域;2)错误类型齐全,包括字级别和词级别拼写错误。
我们收集了法律、医疗、公文写作领域的公开语料,并以此为原始语料进行人工标注。其中,法律相关的句子来源于2020年法研杯[1]司法考试赛道的数据(已开源于论文JEC-QA: A Legal-Domain Question Answering Dataset[2]);医疗相关的句子来源于中文医疗信息处理基准CBLUE[3]的公开语料;公文写作相关的句子来源于国务院[4]发布的公开新闻(已过滤掉包含领导人姓名的敏感句子)。
相关链接:
[1] http://cail.cipsc.org.cn:2020/
[2] https://arxiv.org/abs/1911.12011
[3] https://github.com/CBLUEbenchmark/CBLUE
[4] http://www.gov.cn/
{2 在秩序问题上,根本就不存在法律是否服务于只需的问题。 在秩序问题上,根本就不存在法律是否服务于秩序的问题。}
单条样本由错别字个数,源句,正确句三部分构成,各部分之间使用 进行分割。
如在学术论文中使用该数据集,请添加相关引用说明,具体如下:
《General and Domain Adaptive Chinese Spelling Check with Error Consistent Pretraining》论文地址
Q. Lv, Z. Cao, L. Geng, et al, General and Domain Adaptive Chinese Spelling Check with Error Consistent Pretraining, ACM Trans. Asian Low-Resour. Lang. Inf. Process, Sep. 2022.
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》