JKsaigo
  • Joined on Jul 13, 2022

Datasets

Task246_prostate_tumor
medical image analysis computer vision 0

Task246_prostate_tumor

Updated 1 year ago

120_years_of_Olympic_history_dataset
text categorization natural language processing 0

该数据集整理了从 1896 年雅典奥运会至 2016 年里约热内卢奥运会 120 年的奥林匹克运动会的历史数据。 该数据集包含两个文件: athlete_events.csv:参赛运动员基本生物数据和奖牌结果 noc_regions.csv:国家奥委会 3 个字母的代码与对应国家信息 数据集源自于 kaggle 平台用户分享,基于证书 CC0: Public Domain 发布,具体信息内容源自 [Sports Reference](http://www.sports-reference.com/)。

Updated 1 year ago

TibetanMNIST
image classification computer vision 1

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员。自MNIST数据集建立以来,被广泛地应用于检验各种机器学习算法,测试各种模型,为机器学习的发展做出了不可磨灭的贡献,其当之无愧为历史上最伟大的数据集之一。在一次科研部门的会议上,我无意间看到了一位藏族伙伴的笔记本上写着一些奇特的符号,好奇心驱使我去了解这些符号的意义,我的伙伴告诉我,这些是藏文当中的数字,这对于从小使用阿拉伯数字的我十分惊讶,这些奇特的符号竟有如此特殊的含义!我当即产生了一个想法,能不能让计算机也能识别这些数字呢?这个想法得到了大家的一致认可,于是我们开始模仿MNIST来制作这些数据,由于对藏文的不熟悉,一开始的工作十分艰难,直到取得了藏学研究院同学的帮助,才使得制作工作顺利完成。历时1个月,超过300次反复筛选,最终得到17768张高清藏文手写体数字图像,形成了TibetanMNIST数据集。我和我的团队为其而骄傲,因为它不仅仅是我们自行制作的第一个数据集,更是第一个藏文手写数字的图像数据集!藏文手写数字和阿拉伯数字一样,在藏文中是一个独立的个体,具有笔画简单,便于识别等优良特性。

Updated 1 year ago

TEDSpeech_dataset
language modeling natural language processing 0

本数据集包含了2017年9月21日之前上传到官方网站TED.com的所有TED Talks演讲录制信息。 该数据集包含两个文件: ted_main.csv: 包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。 transcripts.csv: 包含演讲链接和官方英文字幕。

Updated 1 year ago

Defect_inspection-of_bottled_liquor
target detection computer vision 0

阿里云天池:数智重庆.全球产业赋能创新大赛【赛场一】 https://tianchi.aliyun.com/competition/entrance/231763/information

Updated 1 year ago

TREC2005-2007
text categorization natural language processing 4

trec2005-2007。由国际文本检索会议提供,分为英文数据集(trec05-07p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。

Updated 1 year ago

Chinese_character_generator
text annotation natural language processing 0

中文字体数据集,可用于中文文本OCR

Updated 1 year ago

comment_for_iphonese
text categorization natural language processing 0

Apple iPhone SE:Flipkart 中的评级和用户评论,共9713个数据实例。

Updated 1 year ago

Fall_detection_Dataset
target detection computer vision 7

跌倒检测Fall detection Dataset,voc格式,共1440个样本。

Updated 1 year ago

BDD100K_segmentation
unmanned computer vision 2

此数据集包含BDD100k的实例分割部分,包含训练验证集和注释,可以用于自动驾驶方面

Updated 1 year ago

Heart_disease_prediction
text categorization natural language processing 1

该数据库包含76个属性,但是所有已发布的实验都引用了其中14个属性的子集。尤其是,克利夫兰数据库是迄今为止ML研究人员使用的唯一数据库。 “目标”字段是指患者中是否存在心脏病。它是整数值,0 =心脏病发作的机会不多/ 1 =心脏病发作的机会更多

Updated 1 year ago

Adult
text categorization natural language processing 2

UCI数据集中的Adult数据集,可以做数据分类、关联规则(Data Mining方向)

Updated 1 year ago

snips
speech recognition natural language processing 1

ATIS(航空公司陆行信息系统)数据集[77]被广泛用于 SLU 研究.数据集包含预定航班的人员的录音.另外一个数据集 Snips 是从 Snips 个人语音助手收集来的,该数据集每个意图类型的样本数量大致相同.

Updated 1 year ago

Chinese_Rumor_Dataset
information retrieval natural language processing 2

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据。包含从2009年9月4日至2017年6月12日的31669条谣言。 数据说明 rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。 title: 该条谣言被举报的标题内容 informerName: 举报者微博名称 informerUrl: 举报者微博链接 rumormongerName: 发布谣言者的微博名称 rumormongerUr: 发布谣言者的微博链接 rumorText: 谣言内容 visitTimes: 该谣言被访问次数 result: 该谣言审查结果 publishTime: 该谣言被举报时间

Updated 1 year ago

Berlin_aribnb_dataset
text categorization natural language processing 1

数据集来自德国柏林的Airbnb,包括评论数据、订房日期、房价等

Updated 1 year ago