数据管理
管理、标注数据
简介
机器学习开发过程中往往需要海量数据,而且在通常情况下,合适的训练数据集对于文件的质量和规格有着很高的要求。数据的质量一定程度决定了模型的好坏。
平台数据管理模块集成了数据导入、数据筛选、数据标注、数据增强、版本管理等一站式数据服务。提供自动标注、数据增强等一系列数据加工方案,拥有高质量的数据标注处理算法,输出高品质的数据,支持下游 AI 数据训练获得更优的训练效果。
数据集业务架构图如下:

目前支持图片、视频、文本、表格、音频、自定义、医疗影像(dcm)等数据类型,支持图像分类、目标检测、语义分割、目标跟踪、文本分类、中文分词、命名实体识别、等数据标注功能。
数据集管理
数据标注
数据管理模块提供了数据标注功能。使用自动标注可以快速完成数据标注,为开发者节省 70% 以上的标注时间。自动标注是指基于系统提供的「预置标签组」,结合已构建模型进行自动化标注,快速完成图片的标注操作。目前 ImageNet 标签组支持图像分类自动标注。开发者也可通过手动标注完成操作。
数据集详情页中,分别展示了标注「无标注信息」和「有标注信息」的图片,单击图片,即可进行图片的预览,对于已标注图片,左上角会显示该图片的标签信息和标注方式。
- 导入图片
在创建数据集之后,有两种方式可以导入图片:
- 在数据集管理列表右侧的操作一列中,点击「导入」按钮进行导入

- 在数据集详情页面,点击「添加图片」按钮进行导入

- 手动标注
「图像分类」数据集标注详情页,单击图片右上角的方框,勾选需要标注的图片。
根据数据集图片内容选择需要标注的标签,单击「全部标签」中的「标签名」进行标注。
「图像分类」数据集支持多标签的标注,创建数据集时选择多标签,根据图片内容选择需要标注的标签。

- 自动标注
在自动标注之前,请确保已经准备好推理服务(推理服务的创建在下文详细介绍)
在数据集管理列表右侧的操作一列中,点击「自动标注」,选择需要推理服务,并设置标注阈值过滤阈值太低的图片,避免误标。根据文件标注信息选择需要标注的数据「无标注信息/有标注信息」 数据集进入「自动标注中」的状态,等待标注完成即可。



数据集「自动标注完成」,点击操作「查看与标注」进入详情页面,下图为自动标注完成的数据。


- 删除图片
数据集管理页面选择需要删除的图片,点击「删除」按钮后会弹框提示进行二次确认,点击「取消」返回当前页,点击「确定」删除该图片。

标签管理
标签组分为「预置标签组」和「我的标签组」,标签组类型分为「视觉标签组」、「文本标签组」「表格标签组」、「音频标签组」。平台集成了多个预置标签组,也支持用户自定义创建标签组。
我的标签组
- 创建标签组
点击「创建标签组」,进入创建标签组页面,输入名称、类型、描述


- 设置标签组
这边创建标签组的方式有两种,一种是「自定义标签组」,另一种是「导入标签组」
选择创建方式为「自定义标签组」,手动输入标签,输入标签组的顺序跟数字话标签大小相关,标签组从1开始数字化标签对应从0开始。

选择创建方式为「导入标签组」,上传标签组的json文件,文件中字典的键为数字化标签,值为标签的中文或者英文名称:

- 查看标签组详情
点击「查看详情」:

进入详情页,查看当前的标签信息。

- 编辑标签组
点击操作「编辑」:

进入编辑页面,可以编辑标签组的名称以及描述

- 复制标签组
点击操作「复制」:

在弹出的复制标签组弹框中。重命名标签的名称即可完成复制


- 删除标签组
注意:被数据集引用的标签组不允许被删除
选择要删除的标签组点击「删除」:

预置标注组
预置标签组中预置了部分标签组,可直接使用

点击右侧的「查看详情」可进入详情页面,查看标签的类别


How is this guide?
