xiaoxiong

Datasets

yf_amazon
language modeling natural language processing 0

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

Updated 3 weeks ago

ez_douban
language modeling natural language processing 0

5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据

Updated 3 weeks ago

baoxianzhidao_filter
question answering system natural language processing 0

8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答

Updated 3 weeks ago

dmsc_v2
language modeling natural language processing 0

28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据

Updated 3 weeks ago

simplifyweibo_4_moods
emotion analysis natural language processing 1

36 万多条带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

Updated 4 weeks ago

CMRC-2018
language modeling natural language processing 0

篇章:维基百科摘录的篇章,将其切分成若干短文 问题:人工标注的问题 答案:篇章中的某一个连续文本片段

Updated 4 weeks ago

MMChat
question answering system natural language processing 1

MMChat是一个大规模多模态多轮对话数据集,其中的每个对话都与一个或多个图片相关联。我们设计了多种策略来确保MMChat中对话的质量,并且为图片和对话的相关性提供了人工标注。 MMChat_hf的格式如下: dialog (list of strings): 对话内容,列表中的每个元素对应对话中的每句话。 weibo_content (string): 对话所对应的微博内容。 imgs (list of strings): 对话所对应的图片,列表中的每个元素对应一个图片url。 labels (dict): 人工标注的标签。 image_qualified (bool): 图片是否是高质量图片。 dialog_qualified (bool): 对话是否是高质量对话。 dialog_image_related (bool): 对话的内容是否和图片相关。

Updated 1 month ago

LCCC
question answering system natural language processing 0

LCCC是一个大规模中文开放域短文本对话数据集,旨在考察模型在闲聊场景中,是否可以生成流畅的、与上下文相关的对话回复。 该数据集的任务定义如下: 给定对话历史H(u_1, u_2, …, u_t-1) 要求参评系统预测:符合对话历史,且自然流畅、信息丰富的机器回复u_t。 {

Updated 1 month ago

tencent
question answering system natural language processing 1

Tencent是一个大规模的检索辅助生成的中文开放域对话数据集,旨在考察模型在闲聊场景中,是否可以生成流畅的、与上下文相关的对话回复。 该数据集的任务定义如下: 给定对话历史H(u_1, u_2, …, u_t-1) 要求参评系统预测:符合对话历史,且自然流畅、信息丰富的机器回复u_t。

Updated 1 month ago

foodsafety_data
text categorization natural language processing 0

政务数据相关,数据集适合于食品安全主题分类系统,对信息数据进行分类,通过模型建立、语义分析等方法筛选出食品安全相关的信息,以助力相关部门监管高效精准。 本数据集中,1 =涉及食品安全问题,0 =不涉及

Updated 1 month ago

MD-CSC
language modeling natural language processing 1

中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字,该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小,覆盖领域单一,词级别拼写错误缺失等问题。因此,我们推出了多领域的中文拼写纠错数据集(Multi Domain Chinese Spelling Check,MD-CSC)。具体来说,我们收集了包括法律、医疗、公文写作三个领域相关的公开语料,并结合现有的多种输入法,人工标注了8000多条中文句对(源句-目标句)。其中,源句可能包含拼写错误的句子,目标句为正确句子。该数据集的主要特色为:1)覆盖领域多,包括法律、医疗、公文写作三个领域;2)错误类型齐全,包括字级别和词级别拼写错误。

Updated 1 month ago

DuVOG
text categorization natural language processing 0

DuVOG是首个中文视频看点抽取数据集,包含1万多PV超过500的视频,共覆盖了游戏、数码、教育、时尚、科技、汽车、科学、星座运势、母婴育儿、历史、健康养生、体育12个领域,每个视频均由经过专业培训的数据标注人员标注,人均标注正确率90%+。

Updated 1 month ago

DuExplain_senti
emotion analysis natural language processing 0

DuExplain - 情感分析可解释评测数据集旨在评估模型预测依赖证据的可解释性,提供了人工标注的细粒度证据和扰动数据,利用证据匹配F1 Score、扰动下证据一致性、证据充分性等指标评估证据的合理性和忠诚性;同时,该数据集提供了中英文标注数据。 本数据集任务为句子级情感分析可解释评测任务,其要求模型给出预测的情感标签以及预测依赖的证据。 任务定义如下:对于给定的文本(context)及其分词结果(sent_token),系统根据文本中内容给出其对应的情感标签,取值正向(1)和负向(0),同时给出模型预测依赖的证据,由分词结果(sent_token)中若干重要词有序组成。

Updated 1 month ago

DuExplain_mrc
language modeling natural language processing 0

DuExplain阅读理解可解释评测数据集旨在评估模型预测依赖证据的可解释性,提供了人工标注的细粒度证据和扰动数据,利用证据匹配F1 Score、扰动下证据一致性、证据充分性等指标评估证据的合理性和忠诚性;同时,该数据集提供了中英文标注数据。 本数据集任务为阅读理解可解释评测任务,其要求模型根据问题从文本中找出预测的答案以及预测依赖的证据。 任务定义如下:对于给定的文本(context)、其分词结果(sent_token)以及对应的问题(question),系统从文本中抽取问题对应的答案,同时给出模型预测依赖的证据,由分词结果(sent_token)中若干重要词有序组成。

Updated 1 month ago

DuExplain_similarity
language modeling natural language processing 0

DuExplain - 相似度计算可解释评测数据集旨在评估模型预测依赖证据的可解释性,提供了人工标注的细粒度证据和扰动数据,利用证据匹配F1 Score、扰动下证据一致性、证据充分性等指标评估证据的合理性和忠诚性;同时,该数据集提供了中英文标注数据。 本数据集任务为阅读理解可解释评测任务,其要求模型根据问题从文本中找出预测的答案以及预测依赖的证据。 任务定义如下:对于给定的文本(context)、其分词结果(sent_token)以及对应的问题(question),系统从文本中抽取问题对应的答案,同时给出模型预测依赖的证据,由分词结果(sent_token)中若干重要词有序组成。

Updated 1 month ago