StepFun AI 开源音频编辑模型 Step-Audio-EditX，让音频编辑像改文本一样简单-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

StepFun AI 近期推出了开源音频编辑模型 Step-Audio-EditX。这款 3B 规模的创新模型，把音频编辑做得像文本处理一样直观、可控。通过把音频信号的修改转化为逐个令牌的操作，Step-Audio-EditX 让富有表现力的语音编辑更轻松。

目前，多数零样本文本到语音（TTS）系统在情感、风格、口音与音色的控制上仍有局限。它们虽能生成自然语音，却常难以精准符合用户需求。以往研究倾向于借助额外编码器与复杂架构来拆分这些因素，而 Step-Audio-EditX 则通过调配数据与训练目标来实现可控编辑。

Step-Audio-EditX 采用双代码本标记器，将语音映射为两路令牌流：一条是以 16.7Hz 记录的语言流，另一条是以 25Hz 记录的语义流。模型基于同时包含文本与音频令牌的混合语料训练，能够统一处理文本与音频输入。

该模型的关键在于大边距学习。后续训练阶段使用合成的大边距三元组与四元组来强化表现。借助约 60000 名说话者的高质量数据，模型在情感与风格编辑方面效果显著；同时引入人类评分与偏好数据进行强化学习，进一步提升语音生成的自然度与准确性。

为评估模型效果，研究团队提出 Step-Audio-Edit-Test 基准，并使用 Gemini2.5Pro 作为评审工具。测试显示，经过多轮编辑后，模型在情感与说话风格的准确性上均有明显提升。此外，Step-Audio-EditX 还可有效改善其他闭源 TTS 系统的音频质量，为音频编辑研究带来新的可能性。

论文:https://arxiv.org/abs/2511.03601