Open_Dataset
  • Joined on Oct 27, 2020

Datasets

CIFAR-100
image classification computer vision 73

该数据集有100个类别,每个类别包含600张图像。 每个课程有500张训练图像和100张测试图像, CIFAR-100中的100个类别分为20个超类。 https://www.cs.toronto.edu/~kriz/cifar.html

Updated 3 months ago

CIFAR-10
image classification computer vision 207

CIFAR-10数据集包含10个类别的60000个32x32彩色图像,每个类别6000个图像。 有50000张训练图像和10000张测试图像。http://www.cs.toronto.edu/~kriz/cifar.html?usg=alkjrhjqbhw2llxlo8emqns-tbk0at96jq

Updated 3 months ago

imagenet-1K
image classification computer vision 717

ImageNet是根据WordNet层次结构组织的图像数据集。在ImageNet中,目标是为了说明每个synset提供平均1000幅图像。 每个concept图像都是质量控制和人为标注的(quality-controlled and human-annotated)。 在完成之后,希望ImageNet能够为WordNet层次结构中的大多数concept提供数千万个干净整理的图像。 数据集目录可参看本项目代码仓ReadMe(https://git.openi.org.cn/Open_Dataset/imagenet)

Updated 1 year ago

YFCC100M
image description generation computer vision 3

https://drive.google.com/uc?export=download&id=1TXHt-0oLig4MbAHMRuBezdVjclYZzLFc

Updated 1 year ago

google-landmark
image search computer vision 1007

This is the second version of the Google Landmarks dataset (GLDv2), which contains images annotated with labels representing human-made and natural landmarks. The dataset can be used for landmark recognition and retrieval experiments.

Updated 1 year ago

DBPediaAmazonYelpYahooSogouAG
text categorization natural language processing 32

广泛的八个数据集,用于文本分类。 来自DBPedia,Amazon,Yelp,Yahoo!,Sogou和AG的数据集。样本大小为120K至3.6M,范围从二进制到14类问题。 https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

Updated 2 years ago

SNLI
text categorization natural language processing 16

SNLI语料库(1.0版)是一组570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,带有包含,矛盾和中立的标签,支持NLI(RTE)。https://nlp.stanford.edu/projects/snli/

Updated 2 years ago

MSeg
target detection computer vision 6

MSeg:一个用于多域语义分割的复合数据集。80000多张图片中有超过220000个物体任务。

Updated 2 years ago

LibriSpeech
speech recognition speech processing 60

大规模(1000小时)阅读英语语音的语料库。 http://www.openslr.org/12/

Updated 2 years ago

CNNandDailyMailSummarization
question answering system natural language processing 38

使用新闻文章进行问答研究的两个数据集。 每个数据集包含许多文档(每个90k和197k),每个文档平均约有4个问题。 https://cs.nyu.edu/~kcho/DMQA/

Updated 2 years ago

VIOLIN
video processing computer vision and natural language processing 3

VIOLIN(视频和语言推理),由来自15887个视频片段的95322个视频假设对组成,跨越582个小时的视频(YouTube和电视节目)。

Updated 2 years ago

BillionWords
language modeling natural language processing 27

该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/

Updated 2 years ago

SVHNStreetViewHouseNumbers
image classification computer vision 8

SVHN是一个现实世界的图像数据集,用于开发机器学习和对象识别算法,超过600,000位数的图像。SVHN是从Google街景图像中的门牌号获得的。http://ufldl.stanford.edu/housenumbers/

Updated 2 years ago

TAO
video processing computer vision 4

TAO是一个用于跟踪任何对象的联邦数据集,包含2907个高分辨率视频,在不同的环境中捕获,这些视频的平均长度为半分钟。

Updated 2 years ago

VisualGenome
target detection computer vision 15

视觉基因组是一个数据集,一个知识库,将结构化图像概念与语言联系在一起的持续努力。 它包含:108,077张图像540万个区域描述170万个视觉问题解答380万个对象实例。 http://visualgenome.org/

Updated 2 years ago