BR-M_sample_dataset

${num_stars} Modify
每个文件为该语种单或双语抽样语料,目前包含52种语种数据,所有语料来自于PanGu-Alpha中文语料、CC-100、CCMatrix、UN Parallel Corpus、WMT等经过规则过滤、全局精确和模糊去重、双语字符对齐过滤等清洗流程得到。文件名带"corpus"字段均为双语语料对,"\t"分割,否则为单语语料句。
File Name
Size
Available Clusters
Status
Creator
Upload Time
Operate
36 MiB
CPU/GPU
Private Public
2022-10-11 18:47:53