Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
xiaoxiong 03a319e427 | 1 year ago | |
---|---|---|
README.md | 1 year ago |
MMChat是一个大规模多模态多轮对话数据集,其中的每个对话都与一个或多个图片相关联。我们设计了多种策略来确保MMChat中对话的质量,并且为图片和对话的相关性提供了人工标注。
MMChat数据集中的对话是基于微博下面的评论所构建的。MMChat包含四个版本:
MMChat:包含在“分享图片”模式下所发布图片和对话数据,我们认为这些对话数据和所发布的图片关联性更高。
具体数据集格式请见:https://huggingface.co/datasets/silver/mmchat/viewer/mmchat
MMChat-hf:我们对大约10万个对话进行人工注释,以确定给定的图像是否与相应的对话有关。最终有19.90K个对话是和对应的图片紧密相关的。
具体数据集格式请见:https://huggingface.co/datasets/silver/mmchat/viewer/mmchat_hf/train
MMChat-raw:我们还发布了所收集的原始数据,这部分数据只应用了简单的过滤规则。
具体数据集格式请见:https://huggingface.co/datasets/silver/mmchat/viewer/mmchat_raw/train
MMChat-lccc-filtered:我们挑选出了MMChat-raw中和LCCC数据集重合的部分。因为LCCC中采用了多种数据过滤方法,因此MMChat-lccc-filtered中的对话数据质量会更高。
具体数据集格式请见: https://huggingface.co/datasets/silver/mmchat/viewer/mmchat_lccc_filtered/train
MMChat, MMChat_raw, MMChat_lccc_filtered的数据格式一致:
{
"dialog": [
"你只拍出了你十分之一的美",
"你的头像竟然换了,奥"
],
"weibo_content": "分享图片",
"imgs": [
"https://wx4.sinaimg.cn/mw2048/d716a6e2ly1fmug2w2l9qj21o02yox6p.jpg"
]
}
其中:
dialog (list of strings): 对话内容,列表中的每个元素对应对话中的每句话。
weibo_content (string): 对话所对应的微博内容。
imgs (list of strings): 对话所对应的图片,列表中的每个元素对应一个图片url
MMChat_hf的格式如下:
{
"dialog": [
"白百合",
"啊?",
"有点像",
"还好吧哈哈哈牙像",
"有男盆友没呢",
"还没",
"和你说话呢。没回我"
],
"weibo_content": "补一张昨天礼仪的照片",
"imgs": [
"https://ww2.sinaimg.cn/mw2048/005Co9wdjw1eyoz7ib9n5j307w0bu3z5.jpg"
],
"labels": {
"image_qualified": true,
"dialog_qualified": true,
"dialog_image_related": true
}
}
其中:
dialog (list of strings): 对话内容,列表中的每个元素对应对话中的每句话。
weibo_content (string): 对话所对应的微博内容。
imgs (list of strings): 对话所对应的图片,列表中的每个元素对应一个图片url。
labels (dict): 人工标注的标签。
image_qualified (bool): 图片是否是高质量图片。
dialog_qualified (bool): 对话是否是高质量对话。
dialog_image_related (bool): 对话的内容是否和图片相关。
如在学术论文中使用该数据集,请添加相关引用说明,具体如下:
Zheng Y, Chen G, Liu X, et al. MMChat: Multi-modal chat dataset on social media[J]. arXiv preprint arXiv:2108.07154, 2021.论文地址
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》