opendata

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

opendata

Updated 1 year ago

新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章的标题 https://www.kaggle.com/therohk/examine-the-examiner

Updated 3 years ago

MultiWOZ数据集是跨越多个域和主题的人类书面对话的完全标记集合。在10k个对话的情况下，它至少比以前所有带注释的面向任务的语料库大一个数量级。 https://www.repository.cam.ac.uk/handle/1810/280608

Updated 3 years ago

Updated 3 years ago

斯坦福问答数据集——应用广泛的问答和阅读理解数据集，其中每个问题的答案都以文本形式呈现。 https://rajpurkar.github.io/SQuAD-explorer/

Updated 3 years ago

基于mscoc的大规模场景文本数据集。COCO Text V2.0包含63686个图像和239506个带注释的文本实例。分段掩码为每个单词添加了注释，允许精细的级别检测。 https://bgshih.github.io/cocotext/

Updated 3 years ago

数据集包括图片和问题，以及对应回答问题标准的 Program https://cs.stanford.edu/people/jcjohns/clevr/

Updated 3 years ago

AVSpeech是一种新的、大规模的音视频数据集，它包含无干扰背景噪声的语音视频片段。该数据集总共包含约4700个小时的视频片段，来自YouTube总共29万个视频片段，涵盖了各种人群、语言和面部姿

Updated 3 years ago