PearsAI-数据智能服务商

我的AI数据模块是一款专为大型语言模型（LLM）微调数据集设计的功能，提供直观界面支持领域特定文件上传、智能内容拆分、问题生成及高质量训练数据制作，可将领域知识转化为结构化数据集，兼容所有遵循OpenAI格式的LLM API，显著简化模型微调流程。目前平台已支持Markdown、PDF、DOCX、TXT四种格式的文献处理。

该应用核心功能包括智能文档处理，可自动识别并处理PDF、Markdown、DOCX等多种格式文件；智能文本拆分支持多种算法与可定制视觉分割，实现内容精细化处理；智能问题生成能从各文本段落中精准提取相关问题，配合域标签功能构建全域标签体系，提升数据集的全局理解能力。

在内容生成方面，通过LLM API可生成包含思维链（Chain of Thought，COT）的全面答案；全流程灵活编辑功能允许用户在任意阶段修改问题、答案及数据集内容。输出环节支持Alpaca、ShareGPT等格式及JSON、JSONL文件类型导出，兼容所有OpenAI格式的LLM API。

平台采用直观的用户友好界面，兼顾技术与非技术用户需求，同时支持添加自定义系统提示以精准指导模型响应，全方位提升数据集构建效率与质量。

创建项目

进入"我的 AI 数据"页面，点击页面上的"创建项目"按钮，填写数据集的名称、描述等信息，以创建一个数据集生成项目。

屏幕截图 2026-01-27
161931

项目设置

模型配置

创建完成后默认进入大模型设置页面，点击模型后方的选择模型按钮，打开即可启用模型。添加模型操作见管理后台-模型操作章节

屏幕截图 2026-01-27
162430

任务配置任务配置模块用于对文本处理、问题生成、任务并发等相关参数进行设置，以满足不同的任务需求。合理配置各项参数，能够有效提升任务执行效率和质量。

、

分割策略（Split Strategy）

文本分割基于设置的长度范围进行操作，将输入文本按照规则分割成合适的段落，以便后续处理。
当前系统支持的文本分块策略如下，系统默认分块策略为：文档结构分块

最小长度（Minimum Length）

功能：设定分割后每个文本片段的最小字符长度，当前默认值为 1500。若某段文本长度小于该值，会与相邻文本段合并，直至满足最小长度要求。
设置方法：在 "最小长度" 后的输入框中输入期望的数值（需为正整数）。

注意：数值不宜过大，否则可能导致文本片段数量过少，影响后续处理的灵活性；也不宜过小，避免文本片段过于零碎。

最大分割长度（Maximum Split Length）

功能：限制分割后每个文本片段的最大字符长度，当前默认值为 2000。超过该长度的文本会被分割成多个片段。
设置方法：在 "最大分割长度" 后的输入框中输入合适的数值（需为正整数且大于最小长度值）。

问题生成配置

问题生成长度（Question Generation Length）

功能：设定生成问题的最大字符长度，当前默认值为 240。确保生成的问题在合理长度范围内，便于阅读和理解。
设置方法：在 "问题生成长度"处移动滑动条（需为正整数）。

移除问号概率（Removing Question Marks Probability）

功能：设置生成问题时移除问号的概率，当前默认值为 60%。可根据具体需求调整问题格式。
设置方法：在 "移除问号概率"处移动滑动条（代表百分比概率）。

并发限制（Concurrency Limit）

功能：用于限制同时生成问题和生成数据集的任务数量，避免因任务过多占用过多系统资源，导致系统性能下降或任务失败。
设置方法：根据系统资源情况和任务需求，设置合适的并发任务数量上限。具体操作可能需在相关设置界面找到对应的输入框或滑块进行调整（若存在）。

注意：设置时需考虑服务器的硬件性能、网络带宽等因素，若并发任务过多，可能导致任务排队等待时间过长，甚至出现任务超时失败的情况。另外，此处可能会受浏览器的最大并发数量限制影响，可以手动扩大本地浏览器的最大并发数量

PDF 转换配置

MinerU Token 配置

功能：MinerU Token 用于基于 MinerU AIP 转换 PDF 的身份验证和授权。
设置方法：在对应的输入框中输入有效的 MinerU Token。需注意，MinerU Token 有效期仅为 14 天，过期后需及时更换新的 Token 以保证功能正常使用。

自定义大规模视觉模型并发限制

功能：限制自定义大规模视觉模型相关任务的并发数量，合理分配系统资源，保障模型处理任务的稳定性和效率。
设置方法：根据模型的计算复杂度和系统资源情况，谨慎设置并发限制，过高可能导致系统负载过大，过低则可能无法充分利用系统资源。

数据集上传设置

Hugging Face Token

功能：Hugging Face Token 用于在与 Hugging Face 平台交互时进行身份验证，实现数据集上传等功能（目前 Hugging Face 功能尚未实现，此 Token 设置暂时仅为预留）。
设置方法：在 "hf_" 后的输入框中输入 Hugging Face 平台生成的 Token。

自定义提示词例如，在下面的自定义提示词中，我们：

通过自定义全局提示词要求必须使用英文

通过自定义问题生成提示词要求问题必须保持精简

通过自定义答案生成提示词要求答案必须风趣幽默屏幕截图 2026-01-28
102534

最终干预后的效果：

文献处理

此模块用于将多种格式的领域文献，处理为可供模型理解的数据结构。

文件类型

目前平台支持 Markdwon、PDF、DOCX、TXT 四种格式的文献处理，模型对于具备良好结构划分的 Markdown 文献理解效果最好，建议大家优先上传 Markdwon 文件。

屏幕截图 2026-01-27
163522

PDF 处理由于 PDF 格式相对特殊，平台针对不同场景支持了五种不同的 PDF 处理方式，当上传的文献中含有 PDF 格式的文献时，会触发弹框

目前系统支持以下pdf解析模式

基础解析

专注于快速识别简单 PDF 文件的关键轮廓，处理规整纯文本报告、简单说明文档等效率高，但无法精准解析含大量公式、图表等复杂内容的文件。

MinerU API 解析

可通过「设置 - 任务设置」配置 MinerU API Key，调用 MinerU API 进行解析，可深度解析含公式、图表的复杂 PDF 文件，适用于学术论文、技术报告等场景，文件越复杂处理速度越慢。可以通过 https://mineru.net/apiManage/token 申请 MinerU API Key（注意有效期为 14 天，过期需重新申配置）。

MinerU 在线平台解析

跳转至 MinerU 平台：https://mineru.net/OpenSourceTools/Extractor ，用户可在此平台解析 PDF，并下载 Markdwon 文件，再回平台重新上传。

MinerU 私有化部署解析

首先根据 MinerU 官方文档:https://opendatalab.github.io/MinerU/zh/quick_start/ 在本地部署MinerU。

本地部署成功后使用命令 mineru-api --host 0.0.0.0 --port 8000 启动 MinerU 的Web服务。
通过「设置 - 任务设置」配置 MinerU Local URL，调用本地 MinerU 进行解析，可深度解析含公式、图表的复杂 PDF 文件，适用于学术论文、技术报告等场景，文件越复杂处理速度越慢。
因为官方API接口的原因，这种方式无法实时展示处理进度。若想查看文件处理进度请在 MinerU 运行终端查看。

自定义视觉模型解析

可以识别复杂的 PDF 文件，包括公式和图表。该方式要求在模型配置中添加视觉模型配置，通过自定义的视觉模型来实现对 PDF 文件的解析。可以根据具体需求定制解析规则和模型参数，以适应不同类型的复杂 PDF 文件。
当选择 MinerU API 解析、自定义视觉模型解析时，PDF 处理时间可能较长，请耐心等待

文本分块在选择好文件和处理方式，点击上传前，注意一定要提前在右上角选择模型，否则会导致处理失败屏幕截图 2026-01-27
163713

注意，这一步大家没必要选推理模型（比如 DeepSeek-R1），选择一个普通的问答模型比如豆包、千问都可以，在这一步推理模型并不会起到优势，而且会拖慢处理速度。

点击上传后，会将传入的文献进行了智能的文本分割，我们可以在分割列表里看到被拆分好的文本块，以及每个文本块的字数：

点击"眼睛"图标按钮，可以查看每个文本块的详情：

屏幕截图 2026-01-28
104401

点击"画笔"图标按钮可以对每个文本块进行编辑：

文献管理可以筛选指定文献已经生成的文本块：屏幕截图 2026-01-28
104803

可预览文献详情（转换为 Markdown），下载文献（Markdown），删除文献：屏幕截图 2026-01-28
104918

领域标签

文本分块完成后，平台会调用大模型自动基于文献数据建立领域标签树。点击"领域分析"可查看。

在后续生成问题以及数据集的任务中，平台会基于这个领域树去构建，并且把生成的问题和数据集映射到每个领域标签上。领域树可以让每条数据集具备全局理解的能力，并且减少生成重复数据集的可能性。

(1) 编辑领域树

如果你觉得 AI 生成的领域树，有哪些不准确或者不完善的地方，也可以直接手动添加或者更改和删除标签，建议把领域树的划分确认的更准确后，再去生成问题。

屏幕截图 2026-01-28
183401

(2) 修订标签树

当删除、新增一个新的文献时，会提供三种模式：

修改领域树：根据新增或删除的文档修改当前领域树，仅影响发生变更的部分

重建领域树：基于所有文档内容生成全新的领域树

保持不变：保持当前领域树结构不变，不进行任何修改保持当前领域树不变

descript

问题生成

问题生成：从分割好的文本块中提取问题，并为问题建立领域标签。

单个文本块生成问题点击文本块后方的"生成问题"图标按钮可执行单条文本块生成问题。屏幕截图 2026-01-29
094417

任务完成后，可在文本块中查看已经生成好的问题。屏幕截图 2026-01-29
095153

可对已生成问题的文本块、未生成问题的文本块进行筛选：屏幕截图 2026-01-29
095216

批量生成问题点击文本块前面的复选框，点击"批量生成问题"按钮可批量、全选文本块，并批量构造问题：屏幕截图 2026-01-29
095412

可以实时查看批量任务的进度：

注意：当批量任务进行中，关闭、刷新当前页面都会中断任务，可以开一个新页面到问题管理查看已经生成的问题。

问题生成配置

每个文本块生成多少问题，是由「项目设置 - 任务设置」里的生成问题的最大长度决定的，默认设置是每 240 个字符生成一个问题，大家 2000 字符左右的文本块生成了 8 个问题，大家可以根据自己文献的信息密度来灵活调整。

还可以控制生成的问题中消除？的比例（默认将消除 60%）。

可以控制批量任务中的最大并发数量，（默认最大并发 5 个任务）。屏幕截图 2026-01-28
105610

注意：

在实际问答任务中，用户的问题并不总是会携带？消除一定比例的？有助于提升微调效果

部分模型提供商会对最大并发数量进行限制，调整过大的值可能导致批量任务失败，建议灵活测试调整。

问题管理

问题构造完成后，可对问题进行过滤和修订，可提升后续数据集的生成质量。

列表视图点击顶部菜单栏的"问题管理"可进入问题管理页面，在该页面可查看问题名称、问题关联的领域标签、问题所属的文本块，可根据问题、标签名称筛选：屏幕截图 2026-01-29
095905

点击问题列表后方的"编辑"图标按钮可编辑现有问题。屏幕截图 2026-01-29
100212

点击"创建问题"按钮可新增自定义问题屏幕截图 2026-01-29
100429

领域树视图可以领域树视图查看每个领域标签下构造出的问题：屏幕截图 2026-01-29
100517

建议在这个模块删除质量较低的问题（比如跟文献的作者、标注等不相关的问题），避免后续构造出一些质量较低的数据集，并自定义添加好缺失的问题。

数据集生成

生成单个数据集点击单个问题上的"魔法棒"图标，为单个问题生成答案（构造数据集）：屏幕截图 2026-01-29
100654

问题生成答案后，将在右侧展示已经生成答案的数量（单个问题可以生成多个答案）：屏幕截图 2026-01-29
100814

注意：系统会根据问题 + 问题对应的文本块 + 领域标签来一起生成答案，来保障答案和文献本身的相关性。

当右上角选择的是推理模型时，将保留模型推理过程中的思维链（COT） descript

可以筛选已生成答案、未生成答案的问题：屏幕截图 2026-01-29
101330

批量生成数据集可以多选、全选问题，批量生产答案：屏幕截图 2026-01-29
101428

可以查看批量任务的进度：

当批量任务进行中，关闭、刷新当前页面都会中断任务，可以开一个新页面到数据集管理查看已经生成的答案。

数据集生成配置在任务设置 - 问题生成设置中的并发任务数量，依然可以控制批量生成数据集的最大并发数量

最大并发数量越大，数据集生成任务越快，反之越慢，注意模型提供商最大并发限制。

数据集管理

对已生成的数据集进行确认、过滤、修订、优化，保障最终导出符合需求的高质量数据集。

数据集列表查看所有已经生成的数据集，包括原始问题、创建时间、使用的模型、领域标签、是否含有思维链（COT）、答案摘要： descript

数据集详情点击单条数据集，可查看数据集详情，包含问题、答案、思维链、使用模型、领域标签、创建时间、文本块： descript

点击文本块名称，可查看原始文本块详情，方便对比原始内容和答案的差距： descript

数据集修订若对于生成的答案、思维链不满意，可点击编辑按钮手动修改： descript

点击魔法棒图标，可向 AI 提供优化建议，基于 AI 进行优化： descript

数据集确认确认数据集无问题，可点击确认保留： descript

已确认的数据集将会被打上标签： descript

注意：确认数据集不是必备操作，仅用于平台记录已确认的情况，不影响后续导出（未确认的数据集也能导出）。

数据集导出数据集确认完成后，可回到列表，点击导出数据集，支持导出到本地、一键生成 LLaMA Factory 配置两种方式。 descript

(1) 导出到本地

选择文件格式：支持 JSON、JSONL、Excel 三种格式

选择数据集风格：固定风格支持 Alpaca、ShareGPT

支持自定义风格，可以配置问题、回答、思维链对应的字段格式以及是否包含领域标签：

(2) 在 LLaMA Factory 中使用

生成后，点击一键复制配置文件路径。然后将路径粘贴至 LLaMA Factory的webui页面，点击预览数据集，能够加载到数据集，说明配置成功

数据蒸馏

数据蒸馏模块支持从大参数模型中零样本构造蒸馏数据集，然后用于微调小参数模型。

什么是模型蒸馏？

想象有一位"大教授"（大模型），知识渊博但"脾气很大"：培养他需要巨额学费（训练成本高），请他讲课需要豪华教室（高算力硬件），每节课费用惊人（推理成本高）。而"小学生"（小模型）虽然乖巧轻便（低部署成本），但知识面有限。

模型蒸馏就是让大教授把解题思路 "浓缩" 成小抄，教给小学生的过程。

大教授不会直接说 "这道题选A"，而是给出一组概率分布（比如 A 选项 80% 可能，B 选项 20% 可能），这种"软答案"包含了他的思考逻辑。

小学生通过模仿大教授的思路，既能学到核心知识，又不用承担高额成本，就像用"解题思路小抄"快速掌握重点。

简单理解：从大模型中提取原始数据集、推理过程，再微调小模型。

为什么需要模型蒸馏？

大模型虽强，但实际应用中面临两大难题：

算力门槛高：训练一个千亿参数模型需消耗数百万美元，普通企业和个人根本玩不起。

部署困难：大模型运行需要几十 GB 内存，普通个人设备根本"装不下"。

蒸馏的核心价值：个人和小型企业没有能力部署大参数模型，但可以从大模型蒸馏出特定领域的小模型来使用，在大幅降低部署成本的同时，也能够保持特定领域下的使用效果。

模型蒸馏的案例 DeepSeek 推出的系列开源蒸馏模型： image
(1)

李飞飞团队的论文《s1：Simple test- time scaling》中提到：仅花费 50 美元，就训练出一个比肩 ChatGPT o1 和 DeepSeek R1 的模型，基于通义的开源模型 Qwen2.5-32B 进行的微调，而微调所用的数据集，其中一部分蒸馏自 Google Gemini 2.0 Flash Thinking。 image
(2)

这个模型的诞生，是先通过知识蒸馏，从 Gemini API 获取推理轨迹和答案，辅助筛选出 1000 个高质量的数据样本。然后，再用这个数据集，对通义 Qwen2.5-32B 进行微调，最终得到性能表现不错的 s1 模型。

蒸馏 vs 微调 vs RAG

技术类型 核心原理 应用场景

蒸馏小模型模仿大模型的解题思路轻量化部署（手机、企业私有云）

微调用特定数据给模型"补课"（如医疗数据）垂直领域定制（如法律、医疗问答）

RAG 模型调用外部知识库"作弊" 企业文档检索（如内部培训资料）

蒸馏基本流程

(1) 准备"小抄"（软标签生成）

大教授先"做一遍题"：用原始数据（如"这部电影很棒"）输入大模型，生成概率分布。

(2) 小学生"刷题"（模型训练）

小模型输入同样数据，输出自己的预测（如"正面85%，负面15%"），对比大教授的"小抄"计算差距（损失函数）。

通过反复调整参数（反向传播），让小模型的答案越来越接近大教授的思路。

(3) 结合"标准答案"（软硬标签结合）

小模型既要学大教授的思路（软标签），也要保证基础题正确率（硬标签，如"猫就是猫"），通过平衡系数（α）调节两者比重，避免"学偏"。

构造蒸馏数据集一般方法系统的数据蒸馏功能可以解决什么问题？基于特定领域从大模型蒸馏数据集：比如我们想蒸馏出一个基于 DeepSeek R1 推理过程的中医小模型，就要先从 DeepSeek R1 中提取 "中医" 相关的领域数据集。

(1) 蒸馏数据集思路

在模型蒸馏过程中，数据集的构造是非常重要的，直接决定蒸馏模型的质量，需要如下要求：

覆盖任务场景：数据集需与原始任务（如图像分类、自然语言处理等）的真实分布一致，确保教师模型和学生模型学习到的数据特征具有实际意义。

多样性与平衡性：数据需包含足够的样本多样性（如不同类别、噪声水平、边缘情况等），避免因数据偏差导致蒸馏后的模型泛化能力不足。

image
(3)

先通过顶级主题（默认使用项目名称），构造多级领域标签，从而构造完整的领域树，在基于 "学生模型" 从领域树的叶子结点提取问题，最终使用 "教师模型" 为问题逐个生成答案和思维过程。

注意，在实际任务中，提取问题的 "学生模型" 和生成答案的 "教师模型" 也可以是同一个。

(2) 手动蒸馏数据集

我们创建一个体育与运动（Physical Education and Sports）的新项目：

然后我们来到数据蒸馏模块，点击生成顶级标签：

屏幕截图 2026-01-29
105644

此操作可以我们从顶级主题（默认是项目名称）生成 N 个子主题（标签），数量可自定义输入，任务成功后，将在对话框生成标签预览：

屏幕截图 2026-01-29
105941

我们可以点击每个子主题上的添加子标签，可以继续生成多层子主题,为了保证子主题生成的相关性，生成多层子主题将传入完整的标签路径：

屏幕截图 2026-01-29
110225

多级领域标签树构建完成后，可以开启从叶子标签上提取问题,我们可以选择生成问题的数量，另外提取问题时也将传入完整领域标签路径：

屏幕截图 2026-01-29
110423

生成完成后，可以对问题进行预览：

可以从领域树叶子结点上看到已生成的问题：

屏幕截图 2026-01-29
110626

然后可以在每个问题上点击生成答案：

屏幕截图 2026-01-29
110725

也可以到问题管理模块为已生成的问题批量生产答案（蒸馏出的问题由于未关联文本块，默认展示为 Distilled Content）：

屏幕截图 2026-01-29
110826

(3) 全自动蒸馏数据集

如果你不需要精细化的控制以上的每一步，可以点击"全自动蒸馏数据集"：

屏幕截图 2026-01-29
111020

在配置框中，我们可以看到如下选项：

蒸馏主题（默认为项目名称）

生产领域树标签的层级（默认为两层）

每层生成的标签数量（默认为 10 个）

每个子标签生产的问题数量（默认为 10 个）任务开始后，我们可以看到详细的任务进度，包括构建标签、问题、答案的具体进度：

注意：此处也会遵循「项目设置 - 任务设置」中最设置的大并发数限制。

MGA增强数据集

数据增强面临的问题

当前，大模型的训练高度依赖训练数据的规模与质量，但现实往往面临着两大矛盾：

数据稀缺性：高质量语料（如学术文献、专业文本）总量有限，公开数据集（如 C4、RefinedWeb ）经严格过滤后仅保留不到 10% 的原始内容，难以支撑模型的持续扩展和训练。

重复退化问题：在传统深度学习中，重复训练是可以继续提升模型性能的，但 LLM 训练中，过度重复会导致模型泛化能力下降、优化稳定性变差，尤其是参数规模超千亿的模型。

例如，当使用 1950 亿 tokens 的高质量数据训练 130 亿参数模型时，若直接重复 10 次，模型在推理任务（如 GSM8K 数学题）的准确率会下降 23%，验证损失上升 17%。这表明：数据重复并非简单的"量的补充"，而是需要质的多样性重构。

MGA 介绍字节跳动 Seed 团队发表了一篇论文：《Reformulation for Pretraining Data Augmentation》其中提出了一种新的 Massive Genre-Audience（MGA）方法，通过轻量级框架将现有语料系统重构为多样化变体，核心思路是：基于不同 "体裁（Genre）" 和 "受众（Audience）" 生成内容变体，在保留核心知识的同时创造语义丰富的新数据。虽然论文主要是表述预训练的数据集增强，但其思路同样适用于在模型微调阶段的数据集构造。 "Massive Genre-Audience"（大规模类型-受众）是论文中提出的 MGA（Massive Genre-Audience Reformulation）方法的核心概念，其含义可从以下两方面具体理解： image
(4)

"Massive"的含义

大规模的多样性生成：指该方法通过系统设计，能够生成海量的内容变体。例如，论文中提到每次推理会生成 5 对"类型-受众"组合，使原始文档扩展为 5 个新文档，实现 3.9 倍的 Token 数扩展。
覆盖广泛的场景：强调其适用于大规模语料库的扩展，解决数据稀缺和重复问题，支持模型在数十亿参数规模下的高效训练。

"Genre-Audience"的含义

Genre（类型）：指内容的"知识表达框架"，通过多个维度定义，包括：
- 沟通目的（如教育、分析、叙事）；
- 内容结构（如分步教程、学术论文、对话体）；
- 语言风格（如严谨学术风、通俗故事风）；
- 知识深度（如初学者入门、专业研究者深度分析）。
- 例如，将同一篇科普文章重构为"学术论文"或"儿童故事"，会采用不同的结构和语言风格，但保留核心知识。
Audience（受众）：指内容的目标读者群体，结合以下特征：
人口统计学因素（年龄、职业、教育背景，如"12-15岁中学生""医学专业研究生"）；
知识背景与动机（如"对化学感兴趣的初学者""需要教学素材的中学教师"）。
例如，针对"办公室工作人员"的急救指南会侧重实用性和通俗表达，而针对"医学生"的版本则会包含更多专业术语和深度理论。

MGA方法的核心逻辑

通过"类型-受众"对驱动内容多样性：每个"类型-受众"组合定义了一种重构方向，使同一原始文本能以不同形式呈现（如将科学知识转化为面向儿童的故事、面向学者的分析报告等），从而避免数据重复，增强模型对不同场景的泛化能力。

轻量级与可扩展性：利用小模型自适应生成"类型-受众"对，无需依赖100亿参数以上的大型模型，降低计算成本，适合大规模语料库扩展。

使用 MGA 对数据集进行增强操作前置条件：

正常创建好一个项目

配置好模型后，在文献处理模型上传好一些文献

默认情况下，直接生成问题和数据集不会采用 MGA 增强方案。我们可以针对特定需要启

用 MGA 的文献来生成 Genre（类型）、Audience（受众）（GA）对，点击文献后方的"生成GA对按钮"

屏幕截图 2026-01-28
113913

GA 对可以由 AI 自动生成（基于文献关键内容进行提取），也可以手动添加：

屏幕截图 2026-01-28
113650

选择 AI 自动生成，会默认生成 5 个 GA 对：

descript

可以对自动生成的 GA 对进行选择启用，自定义变更，或者删除操作，点击保存后，文献列表处将展示文献已经生成的 GA 对：

屏幕截图 2026-01-29
112251

如果文献较多，你也可以选择为所有文献批量生产 GA 对。对于已生成 GA 对的文献，可选择是追加模式还是覆盖模式，默认覆盖模式：

屏幕截图 2026-01-29
112841

生成完成后，点击文献列表处的 GA 标签，依然可以查看文献的 GA 详情：

屏幕截图 2026-01-29
113048

注意：

在文献启用 MGA 模式（已经生成了 GA 对）后，后续再基于该文献构造问题和数据集都将基于文献下的所有 GA 进行生成：

在默认 240 字符生成一个问题的设置下，对于 1500 字左右的文本块，基础模式下将生成 6 个问题，但是在生成了 5 个 GA 的情况下将生成 30 个问题。

启用 MGA 模式后生成的问题和数据集数量相比之前会成倍增长，所以会消耗更多的 Token，以及使数据集生成速度变慢。

解决方案

行业示例

行业应用

落地咨询

场景共创

核心产品

算力硬件

AI 知识库能力

企业知识库

案例展示

控制台

API 文档

技术支持

我的AI数据