训练管理
管理训练任务
简介
平台为每一个人工智能的训练任务都单独分配了一个虚拟容器去进行训练,各个训练任务之间相互隔离,互不干扰,提高了训练任务的可靠性。训练任务支持 TensorFlow、PyTorch 等多种深度学习框架,使用预置算法或用户自定义算法进行云端训练。支持训练任务的多版本控制,用户可基于现有版本进行修改,动态调整算法超参数,从而得到一个满意的模型。
训练管理主要包含以下两块功能:
- 训练任务:用户可以通过创建的算法或预置算法对已发布的数据集进行训练。
- 可视化任务:用户可以通过可视化功能中展示的模型结构、数据及参数,为深度学习模型训练及调优提供直观的参考。
训练管理操作流程图如下

创建训练任务
- 数据准备:在创建训练任务之前,请确保已经准备好标注完成的数据集(标注方法见1.2.1数据标注)和相应的算法(算法见2.算法开发模块)。
- 创建普通训练任务,点击左上角「创建训练任务」按钮,在弹出「添加任务」窗口中写入信息。

填写注意事项
- 输入任务名称,支持字母、数字、汉字、英文横杠和下划线。
- 添加任务描述(可选)。
- 选择镜像,支持 TensorFlow、OneFlow、PyTorch 等
- 选择算法的类型,可选「我的算法」或「预置算法」。
- 选择算法,此下拉框的内容会根据选用的算法类型变化。
- 选择训练使用的数据集,并选择数据集的版本。
- 验证数据集,开启表示可以通过验证数据集校验训练出模型的推理精度。
- 输入脚本文件运行命令,如: python train.py。
- 输入模型输出的绝对路径,填写该参数在训练运行完成之后可以下载训练好的模型
- 选择节点类型,有 CPU 和 GPU 供选择
- 节点类型对应不同的节点规格(规格类型可由管理员在控制台进行增删改),若有多个节点,则为每个节点的规格:

- 点击「开始训练」,将跳转至训练任务列表页面,其中将展示任务提交成功的提示和创建的任务。

任务界面
在页面中可以查看到 ID、名称、任务类型、现有版本数目、训练时长、状态、创建时间等信息。
- 全部任务页面
全部任务页面可查看全部任务的ID、名称、任务类型、版本数、训练时长、状态、创建时间等信息,并对任务进行创建、停止、删除等操作。

注意:
- 「运行中」任务支持停止操作。
- 「停止」、「运行完成」和「运行失败」任务支持删除操作,删除后任务将无法恢复,请谨慎操作!
- 运行中任务页面
运行中任务页面仅显示状态为「运行中」的任务,可对任务进行停止等操作。

- 任务模板页面
任务模板从「运行完成」状态的训练任务保存而来。
找到其中任意一个训练完成的任务,点击进去任务详情。

点击「更多」展开下拉列表,选择「保存任务模板」

在任务模板里面即可找到保存的模板记录

点击「创建训练任务」用此模板创建训练任务,点击后将会跳转至创建训练任务界面,同时该任务模板的信息将会自动填写到创建训练任务的页面中。
点击「编辑」可修改此任务模板的参数和信息。
点击「删除」此任务模板将无法恢复!
- 停止任务
在任务列表页面选择一条任务,点击操作中的停止并确认,即可停止该任务。

- 删除任务
在任务列表页面选择一条任务,点击操作中的删除并确认,即可删除该记录。

该操作将会删除该任务的所有版本且删除后无法恢复,请谨慎操作!
训练任务详情
- 训练任务名称
在任务列表中选择要查看的任务,点击该条记录的名称,进入任务详情页面。

- 点击「修改」按钮,可修改任务的各类参数并重新训练。

- 点击「运行日志」按钮,可查看运行日志。

- 点击「下载模型」按钮,可下载模型到本地。

- 「下载模型」按钮,可将当前模型保存到模型列表中。

- 点击「保存任务模板」按钮,可将此版本的任务参数保存至「任务模板」列表页。
- 点击「删除」按钮,删除任务且无法恢复,请谨慎操作。
任务模板
- 任务模板列表
任务模板的主要功能为保存训练运行时所需要的参数,方便用户快速使用。保存任务模板可以方便用户后续的参数修改扩展。

- 用户可点击模板记录,在右侧弹出框内查看模板详细信息。

- 用户可选择一条记录点击记录右侧「创建训练任务」,用当前任务模板创建一个新的训练任务。

- 用户可选择一条记录点击记录右侧「编辑」修改此任务模板。

- 用户可选择一条记录点击记录右侧「删除」删除此任务模板。

How is this guide?
