MD-CSC

${num_stars} Modify
中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字,该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小,覆盖领域单一,词级别拼写错误缺失等问题。因此,我们推出了多领域的中文拼写纠错数据集(Multi Domain Chinese Spelling Check,MD-CSC)。具体来说,我们收集了包括法律、医疗、公文写作三个领域相关的公开语料,并结合现有的多种输入法,人工标注了8000多条中文句对(源句-目标句)。其中,源句可能包含拼写错误的句子,目标句为正确句子。该数据集的主要特色为:1)覆盖领域多,包括法律、医疗、公文写作三个领域;2)错误类型齐全,包括字级别和词级别拼写错误。
File Name
Size
Available Clusters
Status
Creator
Upload Time
Operate
681 KiB
CPU/GPU
Private Public
2023-02-11 14:59:01