PearsAI-数据智能服务商

在实际场景中，往往需要在测试集上批量运行结果，以评估应用配置调整后的效果是否有所提升。为了实现大模型应用效果的端到端评估，教学智脑「评测」模块帮助用户评估其技能或助手的回答效果。具体评估流程和逻辑如下：

用户操作流程： a. 用户通过系统界面上的「评测」入口，进入评测模块。 b. 在「新建任务」页，用户选择需要评测的技能或助手，并上传包含测试集数据的 CSV 文件。 c. 用户可以选择默认的评测模型（在模型管理中指定），并根据需要调整评测 Prompt。

descript

系统处理流程： a. 任务建立： i. 系统接收用户上传的测试集 CSV 文件，并开始执行评测任务。 ii. 对于测试集中的每一个 question，调用用户选择的技能或助手生成相应的 answer。 iii. 将每个 question、answer 和 ground_truth 输入到 LLM 裁判中，LLM 分别对answer 和 ground_truth 抽取要点。 b. 评测指标计算： i. 召回率 (Recall)

ii. **准确率 (Precision) **

iii. F1 值

结果生成：

系统生成包含评测结果的 result.csv 文件，用户可以通过界面上的「下载」按钮获取。
在评测模块首页，用户可以查看任务列表，包括任务 ID、测试集文件名、技能或助手名称、评测分数、创建日期、任务状态和操作（下载、删除）等信息。

下载下来的result.csv文件中：

statements_num_gt_only：只在 ground_truth 中出现，但 answer 中没有出现的要点。

statements_num_answer_only：只在 answer 中出现，但 ground_truth 中没有出现的要点。

statements_overlap：同时在 ground_truth 和 answer 中出现的要点。

解决方案

行业示例

行业应用

落地咨询

场景共创

核心产品

算力硬件

AI 知识库能力

企业知识库

案例展示

控制台

API 文档

技术支持

评测