Open_Dataset

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

Open_Dataset

Joined on Oct 27, 2020

该数据集有100个类别，每个类别包含600张图像。每个课程有500张训练图像和100张测试图像， CIFAR-100中的100个类别分为20个超类。 https://www.cs.toronto.edu/~kriz/cifar.html

Updated 3 months ago

CIFAR-10数据集包含10个类别的60000个32x32彩色图像，每个类别6000个图像。有50000张训练图像和10000张测试图像。http://www.cs.toronto.edu/~kriz/cifar.html?usg=alkjrhjqbhw2llxlo8emqns-tbk0at96jq

Updated 3 months ago

ImageNet是根据WordNet层次结构组织的图像数据集。在ImageNet中，目标是为了说明每个synset提供平均1000幅图像。每个concept图像都是质量控制和人为标注的(quality-controlled and human-annotated)。在完成之后，希望ImageNet能够为WordNet层次结构中的大多数concept提供数千万个干净整理的图像。数据集目录可参看本项目代码仓ReadMe（https://git.openi.org.cn/Open_Dataset/imagenet）

Updated 1 year ago

https://drive.google.com/uc?export=download&id=1TXHt-0oLig4MbAHMRuBezdVjclYZzLFc

Updated 1 year ago

This is the second version of the Google Landmarks dataset (GLDv2), which contains images annotated with labels representing human-made and natural landmarks. The dataset can be used for landmark recognition and retrieval experiments.

Updated 1 year ago

广泛的八个数据集，用于文本分类。来自DBPedia，Amazon，Yelp，Yahoo！，Sogou和AG的数据集。样本大小为120K至3.6M，范围从二进制到14类问题。 https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

Updated 2 years ago

SNLI语料库（1.0版）是一组570k人工编写的英语句子对的集合，这些句子对经过手动标记以实现平衡分类，带有包含，矛盾和中立的标签，支持NLI（RTE）。https://nlp.stanford.edu/projects/snli/

Updated 2 years ago

MSeg：一个用于多域语义分割的复合数据集。80000多张图片中有超过220000个物体任务。

Updated 2 years ago

大规模（1000小时）阅读英语语音的语料库。 http://www.openslr.org/12/

Updated 2 years ago

使用新闻文章进行问答研究的两个数据集。每个数据集包含许多文档（每个90k和197k），每个文档平均约有4个问题。 https://cs.nyu.edu/~kcho/DMQA/

Updated 2 years ago

VIOLIN（视频和语言推理），由来自15887个视频片段的95322个视频假设对组成，跨越582个小时的视频（YouTube和电视节目）。

Updated 2 years ago

该项目的目的是为语言建模实验提供标准的培训和测试设置，包含10亿字。http://www.statmt.org/lm-benchmark/

Updated 2 years ago

SVHN是一个现实世界的图像数据集，用于开发机器学习和对象识别算法，超过600,000位数的图像。SVHN是从Google街景图像中的门牌号获得的。http://ufldl.stanford.edu/housenumbers/

Updated 2 years ago

TAO是一个用于跟踪任何对象的联邦数据集，包含2907个高分辨率视频，在不同的环境中捕获，这些视频的平均长度为半分钟。

Updated 2 years ago

视觉基因组是一个数据集，一个知识库，将结构化图像概念与语言联系在一起的持续努力。它包含：108,077张图像540万个区域描述170万个视觉问题解答380万个对象实例。 http://visualgenome.org/

Updated 2 years ago

1 2 3

Datasets