数据集来源于英雄联盟玩家的实时游戏数据,记录下用户在游戏中对局数据(如击杀数、物理伤害等), 其中训练集18万条数据, 测试集2万条数据.
SNLI语料库(1.0版)是一组570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,带有包含,矛盾和中立的标签,支持NLI(RTE)。https://nlp.stanford.edu/projects/snli/
广泛的八个数据集,用于文本分类。 来自DBPedia,Amazon,Yelp,Yahoo!,Sogou和AG的数据集。样本大小为120K至3.6M,范围从二进制到14类问题。 https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
数据集中包含了每笔订单的的'order_detail_id','order_id','order_amount','order_pay_time','is_customer_rate','order_detail_goods_num','order_detail_amount','order_detail_discount','customer_id','goods_id'等信息
Twitter 财经新闻数据集是一个英文数据集,其中包含与财经相关的带注释的推文语料库。 该数据集用于根据主题对与金融相关的推文进行分类。
glue
cdxcs
session1
a-Fire-Framework
gwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgvgwwwgfeefrewdrgv
动态监测
gsvdv
WebKB 数据集包含 877 份科学出版物,分为五类。引文网络由 1608 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典包含 1703 个独特的单词
这个匿名数据集是从 Tagged.com 社交网络网站收集的。它包含 560 万用户和他们之间的 8.58 亿个链接。每个用户都有 4 个特征,并被手动标记为“垃圾邮件发送者”或“不是垃圾邮件发送者”。每个链接代表两个用户之间的一个动作,包括一个时间戳和一个类型。该网络包含 7 种匿名类型的链接。数据集的原始任务是根据他们的关系和非关系特征识别(即分类)垃圾邮件发送者用户。
人脸识别技术是基于人的脸部特征,对输入的人脸图像或者视频流,首先判断其是否存在人脸,如果存在人脸,则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。 广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 生物特征识别技术所研究的生物特征包括脸、指纹、手掌纹、虹膜、视网膜、声音(语音)、体形、个人习惯(例如敲击键盘的力度和频率、签字)等,相应的识别技术就有人脸识别、指纹识别、掌纹识别、虹膜识别、视网膜识别、语音识别(用语音识别可以进行身份识别,也可以进行语音内容的识别,只有前者属于生物特征识别技术)、体形识别、键盘敲击识别、签字识别等。
Crime in major metropolitan areas, such as London, occurs in distinct patterns. This data covers the number of criminal reports by month, LSOA borough, and major/minor category from Jan 2008-Dec 2016.
该数据集整理了从 1896 年雅典奥运会至 2016 年里约热内卢奥运会 120 年的奥林匹克运动会的历史数据。 该数据集包含两个文件: athlete_events.csv:参赛运动员基本生物数据和奖牌结果 noc_regions.csv:国家奥委会 3 个字母的代码与对应国家信息 数据集源自于 kaggle 平台用户分享,基于证书 CC0: Public Domain 发布,具体信息内容源自 [Sports Reference](http://www.sports-reference.com/)。
预测客户流量对商家的经营管理至关重要。在口碑平台上,我们将客户流量定义为“单位时间内在商家使用支付宝消费的用户人次”。在这个问题中,我们将提供用户的浏览和支付历史,以及商家相关信息,并希望参赛选手可以以此预测所有商家在接下来14天内,每天的客户流量。我们提供从2015.07.01到2016.10.31(除去2015.12.12)的商家数据,用户支付行为数据以及用户浏览行为数据。提供数据的类型统一为string类型,提交预测的类型为整形。文件统一为utf-8编码,没有标题行,并以“,”分隔的csv格式。
trec2005-2007。由国际文本检索会议提供,分为英文数据集(trec05-07p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。
数据集来自德国柏林的Airbnb,包括评论数据、订房日期、房价等
该数据集中的简历信息来自 livecareer.com 的简历示例集合,用于将给定的简历分类为数据集中定义的分类标签。
kaggle_movie_reviews
test-upload
新闻文本数据集
表格数据
零基础入门NLP - 新闻文本分类A榜训练集+测试集+提交样例
用于大规模多标签文本分类的数据集1
office31
ChnSentiCorp_htl_all