xiaoxiong

Datasets

wukong_finetune_data
image description generation computer vision 1

悟空微调数据集: 男人、女人、狗、猫四个类别的正则数据各200张,训练照片规格为512*512,具有单一干净的背景,主体突出。

Updated 2 months ago

GCU_Pytorch
text annotation computer vision 10

GCU_Pytorch版本的训练+调试任务教程视频

Updated 2 months ago

GCU
ROS-hmci datasets computer vision 2

GCU(调试/训练任务)+(paadle/pytorch)+ 具体模型教程视频

Updated 2 months ago

Tianshu
image classification computer vision 4

天数智芯-调试任务-Alexnet

Updated 2 months ago

yf_amazon
language modeling natural language processing 1

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

Updated 1 year ago

ez_douban
language modeling natural language processing 0

5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据

Updated 1 year ago

baoxianzhidao_filter
question answering system natural language processing 5

8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答

Updated 1 year ago

dmsc_v2
language modeling natural language processing 0

28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据

Updated 1 year ago

simplifyweibo_4_moods
emotion analysis natural language processing 1

36 万多条带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

Updated 1 year ago

CMRC-2018
language modeling natural language processing 1

篇章:维基百科摘录的篇章,将其切分成若干短文 问题:人工标注的问题 答案:篇章中的某一个连续文本片段

Updated 1 year ago

MMChat
question answering system natural language processing 2

MMChat是一个大规模多模态多轮对话数据集,其中的每个对话都与一个或多个图片相关联。我们设计了多种策略来确保MMChat中对话的质量,并且为图片和对话的相关性提供了人工标注。 MMChat_hf的格式如下: dialog (list of strings): 对话内容,列表中的每个元素对应对话中的每句话。 weibo_content (string): 对话所对应的微博内容。 imgs (list of strings): 对话所对应的图片,列表中的每个元素对应一个图片url。 labels (dict): 人工标注的标签。 image_qualified (bool): 图片是否是高质量图片。 dialog_qualified (bool): 对话是否是高质量对话。 dialog_image_related (bool): 对话的内容是否和图片相关。

Updated 1 year ago

LCCC
question answering system natural language processing 1

LCCC是一个大规模中文开放域短文本对话数据集,旨在考察模型在闲聊场景中,是否可以生成流畅的、与上下文相关的对话回复。 该数据集的任务定义如下: 给定对话历史H(u_1, u_2, …, u_t-1) 要求参评系统预测:符合对话历史,且自然流畅、信息丰富的机器回复u_t。 {

Updated 1 year ago

tencent
question answering system natural language processing 4

Tencent是一个大规模的检索辅助生成的中文开放域对话数据集,旨在考察模型在闲聊场景中,是否可以生成流畅的、与上下文相关的对话回复。 该数据集的任务定义如下: 给定对话历史H(u_1, u_2, …, u_t-1) 要求参评系统预测:符合对话历史,且自然流畅、信息丰富的机器回复u_t。

Updated 1 year ago

foodsafety_data
text categorization natural language processing 1

政务数据相关,数据集适合于食品安全主题分类系统,对信息数据进行分类,通过模型建立、语义分析等方法筛选出食品安全相关的信息,以助力相关部门监管高效精准。 本数据集中,1 =涉及食品安全问题,0 =不涉及

Updated 1 year ago

MD-CSC
language modeling natural language processing 2

中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字,该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小,覆盖领域单一,词级别拼写错误缺失等问题。因此,我们推出了多领域的中文拼写纠错数据集(Multi Domain Chinese Spelling Check,MD-CSC)。具体来说,我们收集了包括法律、医疗、公文写作三个领域相关的公开语料,并结合现有的多种输入法,人工标注了8000多条中文句对(源句-目标句)。其中,源句可能包含拼写错误的句子,目标句为正确句子。该数据集的主要特色为:1)覆盖领域多,包括法律、医疗、公文写作三个领域;2)错误类型齐全,包括字级别和词级别拼写错误。

Updated 1 year ago