仅显示平台推荐
AFQMC
${starItems[0]}

AFQMC: 蚂蚁金融语义相似度数据集

2023-01-12 0 5
2023-02-15 0 2
IntelligentTransportation
${starItems[2]}

移动APP数据实时匿名收集用户地理位置信息, 处理和融合生成城市全时段,无盲区的交通信息。本次大赛将提供城市关键路段(link)的属性信息,路段间网络拓扑结构以及每条路段在历史各时间段内的通行时间,供参赛者建立和测试算法模型。

2023-02-10 0 0
IMCS-NER
${starItems[3]}

训练集样本1,824条,验证集样本616条,测试集样本612条。其中训练、验证集来自CCL评测任务的训练数据,测试集来自CCL评测测试集。 数据集名称: IMCS-NER 数据集下载文件为:IMCS-NER.zip,

2023-02-13 0 2
CHIP-CDN
${starItems[4]}

临床术语标准化任务是医学统计中不可或缺的一项任务。临床上,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化(归一)要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础,研究人员才可对电子病历进行后续的统计分析。本质上,临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样,单一的匹配模型很难获得很好的效果。本系列任务就是在这样的背景下产生的,并分别在CHIP2019、CHIP2020、CHIP2021会议发布了相关评测任务(http://cips-chip.org.cn/)。

2023-02-13 0 1
LondonCrime
${starItems[5]}

Crime in major metropolitan areas, such as London, occurs in distinct patterns. This data covers the number of criminal reports by month, LSOA borough, and major/minor category from Jan 2008-Dec 2016.

2023-03-14 0 0
LAMOST
${starItems[6]}

LAMOST

2023-02-17 1 0
IJCAI17UserPayment
${starItems[7]}

预测客户流量对商家的经营管理至关重要。在口碑平台上,我们将客户流量定义为“单位时间内在商家使用支付宝消费的用户人次”。在这个问题中,我们将提供用户的浏览和支付历史,以及商家相关信息,并希望参赛选手可以以此预测所有商家在接下来14天内,每天的客户流量。我们提供从2015.07.01到2016.10.31(除去2015.12.12)的商家数据,用户支付行为数据以及用户浏览行为数据。提供数据的类型统一为string类型,提交预测的类型为整形。文件统一为utf-8编码,没有标题行,并以“,”分隔的csv格式。

2023-02-17 0 0
ODIR
${starItems[8]}

眼病智能识别(ODIR)是一个结构化的眼科数据库,其中包含5,000名年龄,左眼和右眼的彩色眼底照片以及医生的诊断关键词的患者。该数据集旨在表示由上工医疗技术有限公司从中国不同医院/医疗中心收集的“真实”患者信息集。在这些机构中,眼底图像由市场上的各种相机(例如佳能,蔡司和Kowa)捕获,从而产生不同的图像分辨率。

2023-02-05 0 0
CHIP-MDCFNPC
${starItems[9]}

医学临床报告是病人状态的汇总性的描述,为了尽可能全面和精准的对病人的状态进行客观描述,需要利用严谨的临床发现的概念对病人状态进行表达,其中最基本的状态就是阴性和阳性,也就是病人是否存在或者发生某一种明确的临床发现(Clinical Finding)。目前互联网医疗患者会对自己的症状进行一些口语化的描述,一般称之为主诉,同时医生也为针对性的进行一些问诊,来进行一些主诉的细化和补充。本任务就是在这样的背景下产生的,并在CHIP2021会议发布了评测任务(http://cips-chip.org.cn/2021/eval1),目标是对互联网在线问诊记录中的临床发现的部分进行阴阳性的分类判别。

2023-02-13 0 0
Wukong-CMNER
${starItems[10]}

Wukong-CMNER,一个多模态NER数据集包含图像和文本的语料库。有55423个注释我们语料库中的图像-文本对。本数据是由华为发布的Wukong数据集标注得到,感谢华为公司允许对数据进行标注。

2023-02-07 0 4
IJCAI18
${starItems[11]}

描述 数据集来源于天池IJCAI-18 阿里妈妈搜索广告转化预测大赛初赛数据集:https://tianchi.aliyun.com/competition/entrance/231647/information 本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据,参赛选手通过人工智能技术构建预测模型预估用户的购买意向,即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR),形式化定义为:pCVR=P(conversion=1 | query, user, ad, context, shop)。 结合淘宝平台的业务场景和不同的流量特点,我们定义了以下两类挑战: (1)日常的转化率预估 (2)特殊日期的转化率预估

2023-03-25 0 0
trade_danger
${starItems[12]}

某行业从日常交易明细中,进行抽样审核,对审核有风险的交易打上风险标识(即有风险时label字段值为1,否则label字段值为0),交易相关的输入为ID,V_Time,V1,V2,V3,…,V30; 包括tran.csv和pred.csv,其中train.csv供训练使用,pred.csv供预测使用,

2023-03-25 0 0
Military_Aircraft_Detection_Dataset
${starItems[13]}

数据集为美国军用飞机检测数据,包含34种飞机类型。34种飞机类型 (A10,B1,B2,B52 Be200,C130,C17,C5,E2,EF2000,F117,F14,F15,F16,F18,F22,F35,F4,J20,JAS39,MQ9,Mig31,Mirage2000,RQ4 ,阵风,SR71(可能包含A12),Su57,Tu160,Tu95(可能包含Tu142),U2,US2,V22,XB70,YF23)

2023-03-14 0 1
Crimes_in_Chicago
${starItems[14]}

This dataset reflects reported incidents of crime (with the exception of murders where data exists for each victim) that occurred in the City of Chicago from 2001 to present. Data is extracted from the Chicago Police Department's CLEAR (Citizen Law Enforcement Analysis and Reporting) system. In order to protect the privacy of crime victims, addresses are shown at the block level only and specific locations are not identified.

2023-03-14 0 0
Aliyun_security
${starItems[15]}

恶意软件是一种被设计用来对目标计算机造成破坏或者占用目标计算机资源的软件,传统的恶意软件包括蠕虫、木马等,这些恶意软件严重侵犯用户合法权益,甚至将为用户及他人带来巨大的经济或其他形式的利益损失。近年来随着虚拟货币进入大众视野,挖矿类的恶意程序也开始大量涌现,黑客通过入侵恶意挖矿程序获取巨额收益。当前恶意软件的检测技术主要有特征码检测、行为检测和启发式检测等,配合使用机器学习可以在一定程度上提高泛化能力,提升恶意样本的识别率。

2023-03-14 0 0
mars_tianchi_songs
${starItems[16]}

经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

2023-03-14 0 0
AMWD22_WEBSHELL
${starItems[17]}

近几年随着攻防对抗不断升级,防御的挑战越来越大,在对抗的过程中,逐步发展出了静态检测引擎+AI检测引擎+动态沙箱执行检测引擎等多种综合手段,有效地提高了攻击者绕过的门槛和成本,缓解了恶意程序/恶意代码攻击问题。 本赛题数据就是在这样的背景下产生的,数据集来源于“AMWD 2022:阿里云安全WEBSHELL文本检测”挑战赛的训练集: https://tianchi.aliyun.com/competition/entrance/532035/introduction

2023-03-14 0 0
HandgunDetection
${starItems[18]}

简介 该数据集包含一个注解类:手枪的2986张图像和3448个标签。 图像种类繁多:手枪,卡通和舞台质量的枪支图像。 数据 关于此数据集 该数据集包含一个注解类:手枪的2986张图像和3448个标签。 图像种类繁多:手枪,卡通和舞台质量的枪支图像。

2023-03-14 0 1
BikePedCrash
${starItems[19]}

每次撞车的信息包括:县,城市,撞车日期,撞车日,撞车组,撞车位置,撞车时间,撞车严重性,自行车/行人年龄组,检测到的自行车/行人酒精,自行车方向,自行车/行人伤害,自行车/行人位置,自行车/行人竞赛,自行车/行人性别,救护车响应,驾驶员年龄组,驾驶员估算速度,限速,检测到驾驶员酒精,驾驶员伤害,驾驶员竞赛,驾驶员性别,驾驶员车辆类型,命中和奔跑,发展,光照条件,位置,车道数量,道路特征/等级/状况/配置,道路缺陷/特征,交通控制,碰撞类型和/或天气。

2023-03-14 0 0
CIFAR10_PaddlePaddle_GPU
${starItems[20]}

cifar10数据集由60000张大小为32 * 32的彩色图片组成,其中有50000张图片组成了训练集,另外10000张图片组成了测试集。这些图片分为10个类别。

2023-03-13 4 0
smsCorpus
${starItems[21]}

短消息服务(SMS)消息是一个人从他们的手机发送到另一个人的短消息。它们代表了一种个人交流手段,是当今数字时代重要的交流产物。此数据集包含SMS消息,这些消息是从知道他们正在参加研究项目的用户收集的,并且他们的消息将被公开共享。该数据集包含两种语言的两种SMS消息:新加坡英语和普通话。

2023-03-13 0 0
2023-02-15 0 2
KUAKE-QIC
${starItems[23]}

在医学搜索中,对搜索问题的意图分类可以极大提升搜索结果的相关性,特别是医学知识具备极强的专业性,对问题意图进行分类也有助于融入医学知识来做增强搜索结果的性能。本任务数据集就是在这样的背景下产生的。本评测开放训练集数据6931条,验证集数据1955条,测试集数据1994条。 数据集名称为:KUAKE-QIC(KUAKE - Query Intent Criterion dataset)。

2023-02-13 0 1
CMeIE
${starItems[24]}

实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。 本任务就是在这样的背景下产生的,并在CHIP2020会议发布了评测任务(http://cips-chip.org.cn/)。

2023-02-13 0 3
CHIP-CTC
${starItems[25]}

训练集数据22962条,验证集数据7682条,测试集数据10000条(注:leaderboard的测试数据和原CHIP评测任务的测试数据集不是同一份,重新标注了10000条数据集)。 数据集名称为:CHIP-CTC(CHiP - Clinical Trial Criterion dataset)。

2023-02-13 0 1
2023-02-15 0 2
CHIP-STS
${starItems[27]}

迁移学习是自然语言处理中的重要一环,其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果,从而提高模型的泛化能力。 本次评测任务的主要目标是针对中文的疾病问答数据,进行病种间的迁移学习。具体而言,给定来自5个不同病种的问句对,要求判定两个句子语义是否相同或者相近,并在CHIP2019会议发布了评测任务(http://cips-chip.org.cn/)。

2023-02-13 0 1
2023-02-15 0 1
KUAKE-QTR
${starItems[29]}

在医疗搜索中,评估搜索词(Query)表述主题和落地页标题(Title)表述主题的匹配程度是一项重要的任务,关系到搜索结果的准确性。Query的主题是指query的专注点,用户在输入query是希望找到与query主题相关的网页。该任务需要判断Query主题和Title主题是否一致及达到多大程度上的一致,本任务数据集就是在这样的背景下产生的。

2023-02-13 0 1