情感类别包括钦佩、娱乐、愤怒、烦恼、赞同、关心、困惑、好奇、渴望、失望、不赞成、厌恶、尴尬、兴奋、恐惧、感激、悲伤、喜悦、爱、紧张、乐观、骄傲、实现、解脱、悔恨、悲伤、惊
构建了面向军事领域的动态知识图谱 DynaBase,并发布了KBQA 数据集 DynaQuestions。DynaQuestions 包含了2829 条问答对, 其中针对动态知识的问题600条,每个问答对标注了问题类型、Cypher 语句以及答案,能够从新的复杂维度对问答系统的表现进行评价。DynaQuestions 中的问题类型更加多样,其中静态类型的问题能够评测传统问答模型。
AFQMC: 蚂蚁金融语义相似度数据集
数据集来源于英雄联盟玩家的实时游戏数据,记录下用户在游戏中对局数据(如击杀数、物理伤害等), 其中训练集18万条数据, 测试集2万条数据.
SNLI语料库(1.0版)是一组570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,带有包含,矛盾和中立的标签,支持NLI(RTE)。https://nlp.stanford.edu/projects/snli/
广泛的八个数据集,用于文本分类。 来自DBPedia,Amazon,Yelp,Yahoo!,Sogou和AG的数据集。样本大小为120K至3.6M,范围从二进制到14类问题。 https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
该项目的目的是为语言建模实验提供标准的培训和测试设置,包含10亿字。http://www.statmt.org/lm-benchmark/
数据集中包含了每笔订单的的'order_detail_id','order_id','order_amount','order_pay_time','is_customer_rate','order_detail_goods_num','order_detail_amount','order_detail_discount','customer_id','goods_id'等信息
使用新闻文章进行问答研究的两个数据集。 每个数据集包含许多文档(每个90k和197k),每个文档平均约有4个问题。 https://cs.nyu.edu/~kcho/DMQA/
用于情感分析的数据集,其中包含11855个句子的语法分析树中215154个短语的细粒度情感标签,并为情感组成提出了新挑战。https://nlp.stanford.edu/sentiment/code.html
用于二进制情感分类的数据集,提供了25,000张极地电影评论供培训,25,000张用于测试也有其他未标记的数据可供使用。 http://ai.stanford.edu/~amaas/data/sentiment/
AViD数据集:来自不同国家的匿名视频,AViD是一个大型视频数据集,包含467k个视频和887个动作类。所收集的视频具有知识共享许可证。 https://github.com/piergiaj/AViD
由 Cai-Nicolas Ziegler 在 Humankind Systems 首席技术官 Ron Hornbaker 的许可下,用 4 周的时间(2004 年 8 月/9 月)从 Book-Crossing 社区收集。 包含 278,858 名用户(匿名但具有人口统计信息),对 271,379 本书提供 1,149,780 次评分(明确/隐含)。
icdm2022预测风险
redata
pyg的预处理数据集
心理健康语料库是与患有焦虑症、抑郁症和其他心理健康问题的人相关的文本集合。 语料库由两列组成:一列包含评论,另一列包含指示评论是否被视为有毒的标签。 该语料库可用于多种用途,例如情感分析、有毒语言检测和心理健康语言分析。 语料库中的数据可能对研究人员、心理健康专业人员和其他有兴趣了解围绕心理健康问题的语言和情绪的人有用。
加州大学伯克利分校的 Ken Goldberg 也发布了 Jester Joke Recommender System 的数据集。 该数据集包含来自 73,496 名用户的 100 个笑话的 410 万个连续评分(-10.00 到 +10.00)。
Twitter 财经新闻数据集是一个英文数据集,其中包含与财经相关的带注释的推文语料库。 该数据集用于根据主题对与金融相关的推文进行分类。
第二届推荐系统信息异质性和融合国际研讨会 (HetRec 2011, http://ir.ii.uam.es/hetrec2011) 发布了来自 Delicious、Last.fm Web 2.0、MovieLens、IMDb 和 Rotten Tomatoes 的数据集。 这些数据集包含来自大约 2,000 名用户的社交网络、标签和资源消耗(网页书签和音乐艺术家收听)信息。 数据集由马德里自治大学 (http://ir.ii.uam.es) 的信息检索小组生成。
afvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDVafvdaagwqtfVXcDV
WikiLens 是一个通用的协作推荐系统,允许其社区定义项目类型(例如啤酒)和类别(例如微酿啤酒、淡啤酒、烈性黑啤酒),然后对项目进行评分并获得推荐。该数据集提取于 2008 年 2 月。
从应用于 10,000 部电影的 1,100 个标签池中计算出 1,100 万个标签-电影相关性分数。 2014 年 3 月发布。还可以考虑使用 MovieLens 20M 或最新数据集,其中还包含(更新的)标签基因组数据或 Tag Genome 2021 数据集。
MovieLens 100 万电影评级。 稳定的基准数据集。 6000 个用户对 4000 部电影的 100 万个评分。 2/2003 年发行。
盘古系列模型
safaasasafaasasafaasasafaasasafaasa
“用户个性和用户对推荐系统的满意度”的数据集
测试数据集
glue