小白训练营第7课-数据集
如何上传、预览、标注数据
因V1.22.4.1版本对数据集页面进行了升级改版,本课程已在4月初更新,为保证图片效果,请清空浏览器缓存后查看
经过前面几节课,我们已经学会了创建项目,创建完项目之后,我们可以在项目下上传相应的数据集。数据集主要是为我们的项目服务的,当我们准备在云脑平台上运行项目时,数据集来源于这里。
所以本节课我们将来学习数据集里的主要功能,包括上传、预览、标注和设置,以及一些使用时的注意事项。
1. 进入数据集页面
首先,选择相应项目后,打开【数据集】页面,如果已经上传过数据集,将直接看到数据集展示的页面
但在平台的V1.22.4.1版本,对数据集页面进行了改版升级,上传数据集之前需要先创建数据集。因此,如若未曾创建过数据集的同学,将看到如下缺省页面。
2. 创建数据集与上传数据集
未曾创建过数据集的同学,可以点击缺省页面的【新建数据集】进入到信息完善页面,需填写数据集名称、简介、分类、研究方向等,再点击确认即可。这样也方便大家在数据集广场查找或收藏想要的数据集。
创建完数据集之后,就可以上传相应数据集了。我们点击右侧的【上传】按钮
进入上传页面,选择对应的集群,如需使用云脑1,即选择CPU/GPU集群;如需使用云脑2,则选择NPU集群。
然后,将该项目对应的数据集通过直接拖拽或点击上传上来,最后要记得点击【上传】按钮,才能完成上传。
数据集支持任意格式进行上传,但如果要发起云脑任务,那数据集格式必须是zip的压缩格式。此外,云脑1和云脑2 数据集不共用,当前两个计算平台都支持断点续传功能。
上传之后的界面如下图,在操作栏可将数据集设置为公开或私有,公开的数据集可供大家查看和下载,复制下载链接、标注及删除等收录在【更多】下拉选项中
3. 预览数据集
我们针对zip格式的数据集,点击右侧操作栏中的【预览】
4. 标注数据集
数据标注是大部分人工智能算法得以有效运行的关键环节。我们可以通过人工贴标的方式,为机器系统可供学习的样本。
点击右侧操作栏的更多,选择标注,进入标注任务页面,可以查看所有标记任务,也可以新建标注
点击【新建图片人工标注】,进入标注任务创建页面
选择想要标注的数据集,这里我们随意选择一个zip格式的对象,任务名称也自动关联了
然后我们点击提交,标注任务就创建好了,在操作栏点击【人工标注】
进入到标注工作区,一起来体验数据标注的快乐~
工作区左侧是工具栏,当鼠标停留在图标上时,会有相应的注释,工作区右侧则是标注的进度,中间是标注的图片对象。
我们点击设置按钮,打开设置弹窗,对我们将要标注的内容提前设置一些基本标签
如果要新增属性值,可以在attribute name 栏输入任意名称,然后点击旁边的【+】号进行添加,也可以基于已有的属性值进行修改,比如我们点击type的【显示属性】进行修改,配置一些猫咪的类型
我们看到Type下拉有四个选项,如果选择text,那标注时可以直接输入文本进行标注;如果选择checkbox,则可以设置多个标签;选择radio,则只能选择1个标签;选择dropbox,则是下拉框的形式选择1个标签。
我们可以在左侧选择一个标注工具,然后在图片上框出你要标注的对象,在右侧的【标签列表】可以查看已记录的标注。
第一列数字表示所选类型的id,比如我们设置的波斯猫的id是3,那么这么数字3就表示”波斯猫“,第二列的”bbox“表示所选的标注形状是矩形,第三列的数字表示矩形的长宽。输入或者选择一个标签进行标注,大家可以多体验,这里就不一一展示了
标注完可以导出标注,先点击左侧工具栏里的保存,然后点击左上角Home图标,返回数据集标注页面,点击操作栏里的【导出标注】
弹出导出确认窗口,根据需求选择是否带图片导出及导出格式的相应选项,然后点击提交就可以导出标注啦
好了,数据集的相应功能就为大家介绍到这里了~