DATAI202209211419320

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

BR-M_sample_dataset

每个文件为该语种单或双语抽样语料，目前包含52种语种数据，所有语料来自于PanGu-Alpha中文语料、CC-100、CCMatrix、UN Parallel Corpus、WMT等经过规则过滤、全局精确和模糊去重、双语字符对齐过滤等清洗流程得到。文件名带"corpus"字段均为双语语料对，"\t"分割，否则为单语语料句。

natural language processing language modeling MIT

Upload

File Name

Size

Available Clusters

Status

Creator

Upload Time

Operate

Unzip Status：Unzip Successed Download：2

一带一路多语言数据.zip

36 MiB

CPU/GPU

Private Public

2022-10-11 18:47:53