软件功能管理后台
评测
评测
在实际场景中,往往需要在测试集上批量运行结果,以评估应用配置调整后的效果是否有所提升。为了实现大模型应用效果的端到端评估,教学智脑「评测」模块帮助用户评估其技能或助手的回答效果。具体评估流程和逻辑如下:
- 用户操作流程: a. 用户通过系统界面上的「评测」入口,进入评测模块。 b. 在「新建任务」页,用户选择需要评测的技能或助手,并上传包含测试集数据的 CSV 文件。 c. 用户可以选择默认的评测模型(在模型管理中指定),并根据需要调整评测 Prompt。

- 系统处理流程: a. 任务建立: i. 系统接收用户上传的测试集 CSV 文件,并开始执行评测任务。 ii. 对于测试集中的每一个 question,调用用户选择的技能或助手生成相应的 answer。 iii. 将每个 question、answer 和 ground_truth 输入到 LLM 裁判中,LLM 分别对answer 和 ground_truth 抽取要点。 b. 评测指标计算: i. 召回率 (Recall)
ii. **准确率 (Precision) **
iii. F1 值
- 结果生成:
-
系统生成包含评测结果的 result.csv 文件,用户可以通过界面上的「下载」按钮获取。
-
在评测模块首页,用户可以查看任务列表,包括任务 ID、测试集文件名、技能或助手名称、评测分数、创建日期、任务状态和操作(下载、删除)等信息。
-
下载下来的result.csv文件中:
- statements_num_gt_only:只在 ground_truth 中出现,但 answer 中没有出现的要点。
- statements_num_answer_only:只在 answer 中出现,但 ground_truth 中没有出现的要点。
- statements_overlap:同时在 ground_truth 和 answer 中出现的要点。
How is this guide?
