仅显示平台推荐
BillionWords
${starItems[0]}

该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/

2020-11-09 0 4
nothing
${starItems[1]}

nothing but for test

2022-09-14 47 1
bert_mindrecord_128
${starItems[2]}

bert-mindrecord格式 128的长度

2022-11-21 0 0
wikipedia_mindrecord
${starItems[3]}

dataset for bert, mindrecord format

2022-11-22 45 2
wikipedia_test_mindrecord
${starItems[4]}

test dataset for bert, mindrecord format.

2022-11-18 16 3
k
${starItems[5]}

k

2022-11-17 0 0
en_ro
${starItems[6]}

en_ro

2022-11-01 1 0
dataset
${starItems[7]}

dataset of deepdr

2022-10-28 83 2
BR-M_sample_dataset
${starItems[8]}

每个文件为该语种单或双语抽样语料,目前包含52种语种数据,所有语料来自于PanGu-Alpha中文语料、CC-100、CCMatrix、UN Parallel Corpus、WMT等经过规则过滤、全局精确和模糊去重、双语字符对齐过滤等清洗流程得到。文件名带"corpus"字段均为双语语料对,"\t"分割,否则为单语语料句。

2022-10-11 0 0
PanGu_sample_dataset
${starItems[9]}

本数据集一共包含8个文件,分别为百科(baike.txt)、电子书1(books1.txt)、电子书2(books2.txt)、Common Crawl(common_crawl_2019.txt)、新闻数据(data-news.txt)、开放数据集1(openData-1.txt)、开放数据集2(openData-2.txt)、Sogou-T(Sogou-T.txt),构成鹏城盘古系列模型的训练语料,所有语料经过人工和模型相结合的数据质量评估方法进行评估。

2022-10-11 0 1
SoftMask
${starItems[10]}

纠错训练

2022-09-27 5 1