我的AI数据
我的AI数据
我的AI数据模块是一款专为大型语言模型(LLM)微调数据集设计的功能,提供直观界面支持领域特定文件上传、智能内容拆分、问题生成及高质量训练数据制作,可将领域知识转化为结构化数据集,兼容所有遵循OpenAI格式的LLM API,显著简化模型微调流程。目前平台已支持Markdown、PDF、DOCX、TXT四种格式的文献处理。
该应用核心功能包括智能文档处理,可自动识别并处理PDF、Markdown、DOCX等多种格式文件;智能文本拆分支持多种算法与可定制视觉分割,实现内容精细化处理;智能问题生成能从各文本段落中精准提取相关问题,配合域标签功能构建全域标签体系,提升数据集的全局理解能力。
在内容生成方面,通过LLM API可生成包含思维链(Chain of Thought,COT)的全面答案;全流程灵活编辑功能允许用户在任意阶段修改问题、答案及数据集内容。输出环节支持Alpaca、ShareGPT等格式及JSON、JSONL文件类型导出,兼容所有OpenAI格式的LLM API。
平台采用直观的用户友好界面,兼顾技术与非技术用户需求,同时支持添加自定义系统提示以精准指导模型响应,全方位提升数据集构建效率与质量。
创建项目
进入"我的 AI 数据"页面,点击页面上的"创建项目"按钮,填写数据集的名称、描述等信息,以创建一个数据集生成项目。

项目设置
- 模型配置
创建完成后默认进入大模型设置页面,点击模型后方的选择模型按钮,打开即可启用模型。添加模型操作见管理后台-模型操作章节

- 任务配置 任务配置模块用于对文本处理、问题生成、任务并发等相关参数进行设置,以满足不同的任务需求。合理配置各项参数,能够有效提升任务执行效率和质量。
、
- 分割策略(Split Strategy)
-
文本分割基于设置的长度范围进行操作,将输入文本按照规则分割成合适的段落,以便后续处理。
-
当前系统支持的文本分块策略如下,系统默认分块策略为:文档结构分块

-
- 最小长度(Minimum Length)
-
功能:设定分割后每个文本片段的最小字符长度,当前默认值为 1500。若某段文本长度小于该值,会与相邻文本段合并,直至满足最小长度要求。
-
设置方法:在 "最小长度" 后的输入框中输入期望的数值(需为正整数)。
注意:数值不宜过大,否则可能导致文本片段数量过少,影响后续处理的灵活性;也不宜过小,避免文本片段过于零碎。
-
- 最大分割长度(Maximum Split Length)
-
功能:限制分割后每个文本片段的最大字符长度,当前默认值为 2000。超过该长度的文本会被分割成多个片段。
-
设置方法:在 "最大分割长度" 后的输入框中输入合适的数值(需为正整数且大于最小长度值)。
-
- 问题生成配置

- 问题生成长度(Question Generation Length)
-
功能:设定生成问题的最大字符长度,当前默认值为 240。确保生成的问题在合理长度范围内,便于阅读和理解。
-
设置方法:在 "问题生成长度"处移动滑动条(需为正整数)。
-
- 移除问号概率(Removing Question Marks Probability)
-
功能:设置生成问题时移除问号的概率,当前默认值为 60%。可根据具体需求调整问题格式。
-
设置方法:在 "移除问号概率"处移动滑动条(代表百分比概率)。
-
- 并发限制(Concurrency Limit)
-
功能:用于限制同时生成问题和生成数据集的任务数量,避免因任务过多占用过多系统资源,导致系统性能下降或任务失败。
-
设置方法:根据系统资源情况和任务需求,设置合适的并发任务数量上限。具体操作可能需在相关设置界面找到对应的输入框或滑块进行调整(若存在)。
注意:设置时需考虑服务器的硬件性能、网络带宽等因素,若并发任务过多,可能导致任务排队等待时间过长,甚至出现任务超时失败的情况。另外,此处可能会受浏览器的最大并发数量限制影响,可以手动扩大本地浏览器的最大并发数量
-
- PDF 转换配置

- MinerU Token 配置
-
功能:MinerU Token 用于基于 MinerU AIP 转换 PDF 的身份验证和授权。
-
设置方法:在对应的输入框中输入有效的 MinerU Token。需注意,MinerU Token 有效期仅为 14 天,过期后需及时更换新的 Token 以保证功能正常使用。
-
- 自定义大规模视觉模型并发限制
-
功能:限制自定义大规模视觉模型相关任务的并发数量,合理分配系统资源,保障模型处理任务的稳定性和效率。
-
设置方法:根据模型的计算复杂度和系统资源情况,谨慎设置并发限制,过高可能导致系统负载过大,过低则可能无法充分利用系统资源。
-
- 数据集上传设置

- Hugging Face Token
-
功能:Hugging Face Token 用于在与 Hugging Face 平台交互时进行身份验证,实现数据集上传等功能(目前 Hugging Face 功能尚未实现,此 Token 设置暂时仅为预留)。
-
设置方法:在 "hf_" 后的输入框中输入 Hugging Face 平台生成的 Token。
-
- 自定义提示词 例如,在下面的自定义提示词中,我们:
- 通过自定义全局提示词要求必须使用英文
- 通过自定义问题生成提示词要求问题必须保持精简
- 通过自定义答案生成提示词要求答案必须风趣幽默
最终干预后的效果:

模型测试
此模块用于测试模型配置的准确性,选择模型后,如果这里能够输出成功,则配置正常。

文献处理
此模块用于将多种格式的领域文献,处理为可供模型理解的数据结构。
- 文件类型
目前平台支持 Markdwon、PDF、DOCX、TXT 四种格式的文献处理,模型对于具备良好结构划分的 Markdown 文献理解效果最好,建议大家优先上传 Markdwon 文件。

- PDF 处理
由于 PDF 格式相对特殊,平台针对不同场景支持了五种不同的 PDF
处理方式,当上传的文献中含有 PDF 格式的文献时,会触发弹框
目前系统支持以下pdf解析模式
- 基础解析
- 专注于快速识别简单 PDF 文件的关键轮廓,处理规整纯文本报告、简单说明文档等效率高,但无法精准解析含大量公式、图表等复杂内容的文件。
- MinerU API 解析
- 可通过 「设置 - 任务设置」 配置 MinerU API Key,调用 MinerU API 进行解析,可深度解析含公式、图表的复杂 PDF 文件,适用于学术论文、技术报告等场景,文件越复杂处理速度越慢。可以通过 https://mineru.net/apiManage/token 申请 MinerU API Key(注意有效期为 14 天,过期需重新申配置)。
- MinerU 在线平台解析
-
跳转至 MinerU 平台:https://mineru.net/OpenSourceTools/Extractor ,用户可在此平台解析 PDF,并下载 Markdwon 文件,再回平台重新上传。

-
MinerU 私有化部署解析
- 首先根据 MinerU
官方文档:https://opendatalab.github.io/MinerU/zh/quick_start/
在本地部署MinerU。
-
本地部署成功后使用命令 mineru-api --host 0.0.0.0 --port 8000 启动 MinerU 的Web服务。
-
通过 「设置 - 任务设置」 配置 MinerU Local URL,调用本地 MinerU 进行解析,可深度解析含公式、图表的复杂 PDF 文件,适用于学术论文、技术报告等场景,文件越复杂处理速度越慢。
-
因为官方API接口的原因,这种方式无法实时展示处理进度。若想查看文件处理进度请在 MinerU 运行终端查看。
-
- 自定义视觉模型解析
-
可以识别复杂的 PDF 文件,包括公式和图表。该方式要求在模型配置中添加视觉模型配置,通过自定义的视觉模型来实现对 PDF 文件的解析。可以根据具体需求定制解析规则和模型参数,以适应不同类型的复杂 PDF 文件。
-
当选择 MinerU API 解析、自定义视觉模型解析时,PDF 处理时间可能较长,请耐心等待
-
- 文本分块
在选择好文件和处理方式,点击上传前,注意一定要提前在右上角选择模型,否则会导致处理失败
注意,这一步大家没必要选推理模型(比如 DeepSeek-R1),选择一个普通的问答模型比如豆包、千问都可以,在这一步推理模型并不会起到优势,而且会拖慢处理速度。
点击上传后,会将传入的文献进行了智能的文本分割,我们可以在分割列表里看到被拆分好的文本块,以及每个文本块的字数:

点击"眼睛"图标按钮,可以查看每个文本块的详情:

点击"画笔"图标按钮可以对每个文本块进行编辑:

- 文献管理
可以筛选指定文献已经生成的文本块:
可预览文献详情(转换为 Markdown),下载文献(Markdown),删除文献:

-
文本分块完成后,平台会调用大模型自动基于文献数据建立领域标签树。点击"领域分析"可查看。
领域标签
在后续生成问题以及数据集的任务中,平台会基于这个领域树去构建,并且把生成的问题和数据集映射到每个领域标签上。领域树可以让每条数据集具备全局理解的能力,并且减少生成重复数据集的可能性。
(1) 编辑领域树
如果你觉得 AI 生成的领域树,有哪些不准确或者不完善的地方,也可以直接手动添加或者更改和删除标签,建议把领域树的划分确认的更准确后,再去生成问题。

(2) 修订标签树
当删除、新增一个新的文献时,会提供三种模式:
- 修改领域树:根据新增或删除的文档修改当前领域树,仅影响发生变更的部分
- 重建领域树:基于所有文档内容生成全新的领域树
- 保持不变:保持当前领域树结构不变,不进行任何修改保持当前领域树不变

问题生成
问题生成:从分割好的文本块中提取问题,并为问题建立领域标签。
- 单个文本块生成问题
点击文本块后方的"生成问题"图标按钮可执行单条文本块生成问题。
任务完成后,可在文本块中查看已经生成好的问题。
可对已生成问题的文本块、未生成问题的文本块进行筛选:

- 批量生成问题
点击文本块前面的复选框,点击"批量生成问题"按钮可批量、全选文本块,并批量构造问题:
可以实时查看批量任务的进度:
注意:当批量任务进行中,关闭、刷新当前页面都会中断任务,可以开一个新页面到问题管理查看已经生成的问题。 - 问题生成配置
- 每个文本块生成多少问题,是由 「项目设置 - 任务设置」 里的生成问题的最大长度决定的,默认设置是每 240 个字符生成一个问题,大家 2000 字符左右的文本块生成了 8 个问题,大家可以根据自己文献的信息密度来灵活调整。
- 还可以控制生成的问题中消除 ?的比例(默认将消除 60%)。
- 可以控制批量任务中的最大并发数量,(默认最大并发 5 个任务)。
注意:
-
在实际问答任务中,用户的问题并不总是会携带 ?消除一定比例的 ? 有助于提升微调效果
-
部分模型提供商会对最大并发数量进行限制,调整过大的值可能导致批量任务失败,建议灵活测试调整。
问题管理
问题构造完成后,可对问题进行过滤和修订,可提升后续数据集的生成质量。
- 列表视图
点击顶部菜单栏的"问题管理"可进入问题管理页面,在该页面可查看问题名称、问题关联的领域标签、问题所属的文本块,可根据问题、标签名称筛选:
点击问题列表后方的"编辑"图标按钮可编辑现有问题。
点击"创建问题"按钮可新增自定义问题

- 领域树视图
可以领域树视图查看每个领域标签下构造出的问题:
建议在这个模块删除质量较低的问题(比如跟文献的作者、标注等不相关的问题),避免后续构造出一些质量较低的数据集,并自定义添加好缺失的问题。
数据集生成
- 生成单个数据集
点击单个问题上的"魔法棒"图标,为单个问题生成答案(构造数据集):
问题生成答案后,将在右侧展示已经生成答案的数量(单个问题可以生成多个答案):
当右上角选择的是推理模型时,将保留模型推理过程中的思维链(COT)注意:系统会根据问题 + 问题对应的文本块 + 领域标签来一起生成答案,来保障答案和文献本身的相关性。
可以筛选已生成答案、未生成答案的问题:

- 批量生成数据集
可以多选、全选问题,批量生产答案:
可以查看批量任务的进度:
当批量任务进行中,关闭、刷新当前页面都会中断任务,可以开一个新页面到数据集管理查看已经生成的答案。
- 数据集生成配置
在任务设置 -
问题生成设置中的并发任务数量,依然可以控制批量生成数据集的最大并发数量
最大并发数量越大,数据集生成任务越快,反之越慢,注意模型提供商最大并发限制。
数据集管理
对已生成的数据集进行确认、过滤、修订、优化,保障最终导出符合需求的高质量数据集。
- 数据集列表
查看所有已经生成的数据集,包括原始问题、创建时间、使用的模型、领域标签、是否含有思维链(COT)、答案摘要:

- 数据集详情
点击单条数据集,可查看数据集详情,包含问题、答案、思维链、使用模型、领域标签、创建时间、文本块:
点击文本块名称,可查看原始文本块详情,方便对比原始内容和答案的差距:

- 数据集修订
若对于生成的答案、思维链不满意,可点击编辑按钮手动修改:
点击魔法棒图标,可向 AI 提供优化建议,基于 AI 进行优化:

- 数据集确认
确认数据集无问题,可点击确认保留:
已确认的数据集将会被打上标签:
注意:确认数据集不是必备操作,仅用于平台记录已确认的情况,不影响后续导出(未确认的数据集也能导出)。
- 数据集导出
数据集确认完成后,可回到列表,点击导出数据集,支持导出到本地、一键生成
LLaMA Factory 配置两种方式。

(1) 导出到本地
- 选择文件格式:支持 JSON、JSONL、Excel 三种格式
- 选择数据集风格:固定风格支持 Alpaca、ShareGPT
- 支持自定义风格,可以配置问题、回答、思维链对应的字段格式以及是否包含领域标签:
(2) 在 LLaMA Factory 中使用
生成后,点击一键复制配置文件路径。然后将路径粘贴至 LLaMA Factory的webui页面,点击预览数据集,能够加载到数据集,说明配置成功
数据蒸馏
数据蒸馏模块支持从大参数模型中零样本构造蒸馏数据集,然后用于微调小参数模型。
- 什么是模型蒸馏?
想象有一位"大教授"(大模型),知识渊博但"脾气很大":培养他需要巨额学费(训练成本高),请他讲课需要豪华教室(高算力硬件),每节课费用惊人(推理成本高)。而"小学生"(小模型)虽然乖巧轻便(低部署成本),但知识面有限。
模型蒸馏就是让大教授把解题思路 "浓缩" 成小抄,教给小学生的过程。
大教授不会直接说 "这道题选A",而是给出一组概率分布(比如 A 选项 80% 可能,B 选项 20% 可能),这种"软答案"包含了他的思考逻辑。
小学生通过模仿大教授的思路,既能学到核心知识,又不用承担高额成本,就像用"解题思路小抄"快速掌握重点。
简单理解:从大模型中提取原始数据集、推理过程,再微调小模型。
- 为什么需要模型蒸馏?
大模型虽强,但实际应用中面临两大难题:
算力门槛高:训练一个千亿参数模型需消耗数百万美元,普通企业和个人根本玩不起。
部署困难:大模型运行需要几十 GB 内存,普通个人设备根本"装不下"。
蒸馏的核心价值:个人和小型企业没有能力部署大参数模型,但可以从大模型蒸馏出特定领域的小模型来使用,在大幅降低部署成本的同时,也能够保持特定领域下的使用效果。
- 模型蒸馏的案例
DeepSeek 推出的系列开源蒸馏模型:
李飞飞团队的论文 《s1:Simple test- time scaling》 中提到:仅花费 50
美元,就训练出一个比肩 ChatGPT o1 和 DeepSeek R1
的模型,基于通义的开源模型 Qwen2.5-32B
进行的微调,而微调所用的数据集,其中一部分蒸馏自 Google Gemini 2.0
Flash Thinking。
这个模型的诞生,是先通过知识蒸馏,从 Gemini API
获取推理轨迹和答案,辅助筛选出 1000
个高质量的数据样本。然后,再用这个数据集,对通义 Qwen2.5-32B
进行微调,最终得到性能表现不错的 s1 模型。 - 蒸馏 vs 微调 vs RAG
技术类型 核心原理 应用场景
蒸馏 小模型模仿大模型的解题思路 轻量化部署(手机、企业私有云)
微调 用特定数据给模型"补课"(如医疗数据) 垂直领域定制(如法律、医疗问答)
RAG 模型调用外部知识库"作弊" 企业文档检索(如内部培训资料)
- 蒸馏基本流程
(1) 准备"小抄"(软标签生成)
- 大教授先"做一遍题":用原始数据(如"这部电影很棒")输入大模型,生成概率分布。
(2) 小学生"刷题"(模型训练)
- 小模型输入同样数据,输出自己的预测(如"正面85%,负面15%"),对比大教授的"小抄"计算差距(损失函数)。
- 通过反复调整参数(反向传播),让小模型的答案越来越接近大教授的思路。
(3) 结合"标准答案"(软硬标签结合)
- 小模型既要学大教授的思路(软标签),也要保证基础题正确率(硬标签,如"猫就是猫"),通过平衡系数(α)调节两者比重,避免"学偏"。
- 构造蒸馏数据集一般方法 系统的数据蒸馏功能可以解决什么问题?基于特定领域从大模型蒸馏数据集:比如我们想蒸馏出一个基于 DeepSeek R1 推理过程的中医小模型,就要先从 DeepSeek R1 中提取 "中医" 相关的领域数据集。
(1) 蒸馏数据集思路
在模型蒸馏过程中,数据集的构造是非常重要的,直接决定蒸馏模型的质量,需要如下要求:
覆盖任务场景:数据集需与原始任务(如图像分类、自然语言处理等)的真实分布一致,确保教师模型和学生模型学习到的数据特征具有实际意义。
多样性与平衡性:数据需包含足够的样本多样性(如不同类别、噪声水平、边缘情况等),避免因数据偏差导致蒸馏后的模型泛化能力不足。

先通过顶级主题(默认使用项目名称),构造多级领域标签,从而构造完整的领域树,在基于 "学生模型" 从领域树的叶子结点提取问题,最终使用 "教师模型" 为问题逐个生成答案和思维过程。
注意,在实际任务中,提取问题的 "学生模型" 和生成答案的 "教师模型" 也可以是同一个。
(2) 手动蒸馏数据集
我们创建一个体育与运动(Physical Education and Sports)的新项目:

然后我们来到数据蒸馏模块,点击生成顶级标签:

此操作可以我们从顶级主题(默认是项目名称)生成 N 个子主题(标签),数量可自定义输入,任务成功后,将在对话框生成标签预览:

我们可以点击每个子主题上的添加子标签,可以继续生成多层子主题,为了保证子主题生成的相关性,生成多层子主题将传入完整的标签路径:


多级领域标签树构建完成后,可以开启从叶子标签上提取问题,我们可以选择生成问题的数量,另外提取问题时也将传入完整领域标签路径:

生成完成后,可以对问题进行预览:

可以从领域树叶子结点上看到已生成的问题:

然后可以在每个问题上点击生成答案:

也可以到问题管理模块为已生成的问题批量生产答案(蒸馏出的问题由于未关联文本块,默认展示为 Distilled Content):

(3) 全自动蒸馏数据集
如果你不需要精细化的控制以上的每一步,可以点击"全自动蒸馏数据集":

在配置框中,我们可以看到如下选项:
- 蒸馏主题(默认为项目名称)
- 生产领域树标签的层级(默认为两层)
- 每层生成的标签数量(默认为 10 个)
- 每个子标签生产的问题数量(默认为 10 个)
任务开始后,我们可以看到详细的任务进度,包括构建标签、问题、答案的具体进度:
注意:此处也会遵循「项目设置 - 任务设置」 中最设置的大并发数限制。
MGA增强数据集
- 数据增强面临的问题
当前,大模型的训练高度依赖训练数据的规模与质量,但现实往往面临着两大矛盾:
- 数据稀缺性:高质量语料(如学术文献、专业文本)总量有限,公开数据集(如 C4、RefinedWeb )经严格过滤后仅保留不到 10% 的原始内容,难以支撑模型的持续扩展和训练。
- 重复退化问题:在传统深度学习中,重复训练是可以继续提升模型性能的,但 LLM 训练中,过度重复会导致模型泛化能力下降、优化稳定性变差,尤其是参数规模超千亿的模型。
例如,当使用 1950 亿 tokens 的高质量数据训练 130 亿参数模型时,若直接重复 10 次,模型在推理任务(如 GSM8K 数学题)的准确率会下降 23%,验证损失上升 17%。这表明:数据重复并非简单的"量的补充",而是需要质的多样性重构。
- MGA 介绍
字节跳动 Seed 团队发表了一篇论文:《Reformulation for Pretraining
Data Augmentation》
其中提出了一种新的 Massive Genre-Audience(MGA)
方法,通过轻量级框架将现有语料系统重构为多样化变体,核心思路是:基于不同
"体裁(Genre)" 和 "受众(Audience)"
生成内容变体,在保留核心知识的同时创造语义丰富的新数据。
虽然论文主要是表述预训练的数据集增强,但其思路同样适用于在模型微调阶段的数据集构造。
"Massive Genre-Audience"(大规模类型-受众)是论文中提出的
MGA(Massive Genre-Audience Reformulation)
方法的核心概念,其含义可从以下两方面具体理解:

- "Massive"的含义
-
大规模的多样性生成:指该方法通过系统设计,能够生成海量的内容变体。例如,论文中提到每次推理会生成 5 对"类型-受众"组合,使原始文档扩展为 5 个新文档,实现 3.9 倍的 Token 数扩展。
-
覆盖广泛的场景:强调其适用于大规模语料库的扩展,解决数据稀缺和重复问题,支持模型在数十亿参数规模下的高效训练。
-
- "Genre-Audience"的含义
-
Genre(类型): 指内容的"知识表达框架",通过多个维度定义,包括:
-
沟通目的(如教育、分析、叙事);
-
内容结构(如分步教程、学术论文、对话体);
-
语言风格(如严谨学术风、通俗故事风);
-
知识深度(如初学者入门、专业研究者深度分析)。
-
例如,将同一篇科普文章重构为"学术论文"或"儿童故事",会采用不同的结构和语言风格,但保留核心知识。
-
-
Audience(受众): 指内容的目标读者群体,结合以下特征:
-
人口统计学因素(年龄、职业、教育背景,如"12-15岁中学生""医学专业研究生");
-
知识背景与动机(如"对化学感兴趣的初学者""需要教学素材的中学教师")。
-
例如,针对"办公室工作人员"的急救指南会侧重实用性和通俗表达,而针对"医学生"的版本则会包含更多专业术语和深度理论。
MGA方法的核心逻辑
通过"类型-受众"对驱动内容多样性:每个"类型-受众"组合定义了一种重构方向,使同一原始文本能以不同形式呈现(如将科学知识转化为面向儿童的故事、面向学者的分析报告等),从而避免数据重复,增强模型对不同场景的泛化能力。
轻量级与可扩展性:利用小模型自适应生成"类型-受众"对,无需依赖100亿参数以上的大型模型,降低计算成本,适合大规模语料库扩展。
-
- 使用 MGA 对数据集进行增强操作 前置条件:
- 正常创建好一个项目
- 配置好模型后,在文献处理模型上传好一些文献
默认情况下,直接生成问题和数据集不会采用 MGA 增强方案。我们可以针对特定需要启
用 MGA 的文献来生成 Genre(类型)、Audience(受众) (GA)对,点击文献后方的"生成GA对按钮"

GA 对可以由 AI 自动生成(基于文献关键内容进行提取),也可以手动添加:

选择 AI 自动生成,会默认生成 5 个 GA 对:

可以对自动生成的 GA 对进行选择启用,自定义变更,或者删除操作,点击保存后,文献列表处将展示文献已经生成的 GA 对:

如果文献较多,你也可以选择为所有文献批量生产 GA 对。对于已生成 GA 对的文献,可选择是追加模式还是覆盖模式,默认覆盖模式:

生成完成后,点击文献列表处的 GA 标签,依然可以查看文献的 GA 详情:

注意:
-
在文献启用 MGA 模式(已经生成了 GA 对)后,后续再基于该文献构造问题和数据集都将基于文献下的所有 GA 进行生成:
-
在默认 240 字符生成一个问题的设置下,对于 1500 字左右的文本块,基础模式下将生成 6 个问题,但是在生成了 5 个 GA 的情况下将生成 30 个问题。
-
启用 MGA 模式后生成的问题和数据集数量相比之前会成倍增长,所以会消耗更多的 Token,以及使数据集生成速度变慢。
How is this guide?
