PearsAI-数据智能服务商

数字人训练主要涵盖两个重要的部分，分别是定制模特形象以及定制模特声音。

定制模特形象这一方面，其为用户提供的操作界面极具友好性，操作起来极为简便，很容易上手使用。哪怕用户自身并没有任何的技术基础，对于相关的软件也从未有过使用经验，但这些都不会成为障碍，用户依然能够毫无压力地、轻松地训练出属于自己个人的专属数字分身形象。在这个过程中，用户不需要去理解复杂的技术原理，也不用担心因为缺乏经验而无法进行操作，整个训练流程的设计充分考虑到了各类用户的使用需求，让每一个用户都能顺利地打造出自己想要的数字分身形象。

定制模特声音也是如此，它所提供的用户操作界面同样是友好且简便易用的。当用户没有技术基础，也没有相关软件的使用经验时，这并不会影响他们去轻松地训练出个人专属的数字分身声音。就像定制形象一样，定制声音的操作过程也不会给用户带来困扰，用户不需要具备专业的音频知识或者软件操作技巧，就能按照自己的意愿训练出独特的数字分身声音，从而让数字人的声音也带有鲜明的个性化特征。

定制模特形象

点击左侧菜单栏中的"数字人训练"选项，进入数字人训练页面。接着，点击该页面上的"新建模特"按钮，即可进入定制数字人形象页面。

屏幕截图 2026-01-27
142723(1)

按照页面指引进行定制操作，用户点击"开始训练"后进入上传页面，仅需为即将开展训练的数字形象命名，并上传符合训练要求的人像视频即可。

上传数字人形象视频数字人形象训练视频要求如下：需为单人形象视频，固定机位拍摄，时长控制在3 - 5分钟，分辨率为1920×1080，横版或竖版均可。背景与人物的区分要显著，背景采用纯色，例如绿幕背景。拍摄视频时，要留意避免人物边界与背景部分不清晰的情况，因为这会致使分割人物形象时边界模糊。人物可以做出一些动作，比如轻微点头、微笑，手部进行小幅度动作，例如向某个方向做出"欢迎光临"的手势，但不要弯腰。动作需连贯，例如伸出手后要收回原处。

预处理视频

用户点击"一键预处理"按钮后，系统将自动对视频内容进行处理。用户需等待系统处理完成，确定头部框选区域后，即可完成数据处理。注意，调节框选区域的大小，需完全涵盖肩膀以上的头部区域。

处理完成的视频将在页面中进行展示，用户可查看视频处理完成后的结果。

正式训练

待视频处理完毕，用户点击"训练模特"即可进入训练界面。在此界面中，用户能够进行训练参数的设置，也可以保持默认参数。点击"训练模特"后，系统将开启数字形象的训练，最终的训练结果将展示在页面右侧。

需要注意的是，一个3 - 5分钟的数字人训练视频，若要确保训练后的模特形象能够使用，其训练时长大约为12小时。

定制模特声音

点击左侧菜单栏中的"数字人训练"选项，进入数字人训练页面。接着，点击该页面上的"新建声音"按钮，即可进入定制数字人声音页面。

屏幕截图 2026-01-27
142723

按照页面上的操作指引进行数字人声音训练，用户点击"开始训练"后，将进入上传页面。用户只需按照页面指引，完成命名、上传音频文件以及选择处理音频的模型即可。若需自定义音频训练完成后的展示图像，可上传头像。

上传声音音频请准备一段时长控制在3分钟的音频，音频内容由单人录制，要保证人声清晰可辨，吐字精准流畅。录制时需格外留意背景环境，确保无他人声音干扰，以此保证音频的纯净度与专注度。同时，录制过程中应尽量避免杂音或不必要的背景噪音，让整体效果更显专业，聆听体验更佳。如此一来，这样的音频将更符合要求，克隆出的数字人声音也会更贴近真人。

数据预处理

完成上述工作后，用户点击"一键处理"即进入音频文件处理页面，处理结果也将在此页面显示。用户可试听处理结果，同时系统支持人为纠偏的操作。

完成数据处理后，点击右侧箭头进入下一步-训练环节。用户可根据需求设置训练参数，也可保持默认训练参数。完成参数设置后，点击"一键训练"，等待片刻后即可完成数字声音训练全流程，相应的训练成功记录也将同步展示在"新建数字人-首页"中的"我的声音"中。

解决方案

行业示例

行业应用

落地咨询

场景共创

核心产品

算力硬件

AI 知识库能力

企业知识库

案例展示

控制台

API 文档

技术支持

数字人训练

定制模特形象

定制模特声音

On this page