当大模型已经深度改变文本与图像创作时,语音编辑依旧很难做到像“改句子”那样直观好用。如今,StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在打破这一难题。它基于 30亿参数的音频语言模型(Audio LLM),首次把语音编辑变成了类似文本标记级的可控操作,而不是传统的波形信号处理。
根据团队在最新论文 arXiv:2511.03601 的介绍,Step-Audio-EditX 的目标是让开发者可以“像改一句话一样,直接调整语音的情绪、语调、风格,甚至呼吸声”。

从“声音模仿”走向“细粒度控制”
多数零样本 TTS 只能从短参考音频里拷贝情感、口音和音色,听着自然,却很难精准控制。文本里的风格提示经常被忽略,跨语言、跨风格更容易失效。
Step-Audio-EditX 走了另一条路——不再依赖复杂的解耦编码器,而是通过重构数据与训练目标来实现可控。模型学习大量文本相同、属性差异明显的语音对与三元组,在不改文本的前提下学会调节情绪、风格和副语言要素。
双码本分词器与 3B 级音频 LLM 架构
Step-Audio-EditX 延续了 Step-Audio 的 双码本分词器(Dual Codebook Tokenizer) 设计:
-
语言流:采样率 16.7 Hz,词表 1024 个标记;
-
语义流:采样率 25 Hz,词表 4096 个标记;
-
两路标记按 2:3 比例交错,更好保留韵律与情感信息。
在此之上,团队训练了一个 30 亿参数的紧凑型音频 LLM。模型以文本 LLM 初始化,并在混合语料上训练(文本与音频标记 1:1)。它可读入文本或音频标记,并统一输出双码本标记序列。
音频重建由独立解码器完成:扩散-Transformer 流匹配模块 预测梅尔频谱,BigVGANv2 声码器 将其还原为波形。该链路在 20 万小时高质量语音上训练,显著提升了音色与韵律的自然度。

大间隔学习与合成数据策略
Step-Audio-EditX 的核心是“大间隔学习”(Large Margin Learning)。在保持文本不变的情况下,模型用三元组、四元组进行训练,学习如何在“差异足够大”的语音属性之间稳定切换。
团队使用覆盖中文、英语、粤语与四川话的 6 万名说话人数据集,并构建合成三元组,强化情感与风格控制。每组样本由配音演员录制 10 秒片段,StepTTS 生成中性与情感版本,再经人工与模型双重打分,筛选出质量最高的样本。
副语言(如笑声、呼吸、填充停顿)编辑基于 NVSpeech 数据集,通过克隆与标注清理做时域监督,无需额外的边距模型。
SFT + PPO:让模型真正“听懂”指令
训练流程分两步:
-
监督微调(SFT):在统一对话格式中同时学习 TTS 与编辑任务;
-
强化学习(PPO):用奖励模型优化对自然语言指令的响应。
奖励模型由 SFT 检查点初始化,使用 Bradley-Terry 损失在大间隔偏好对上训练,直接在标记级计算奖励,无需先解码为波形。PPO 引入 KL 惩罚,平衡音质与偏置。
Step-Audio-Edit-Test:AI 评测标准
为衡量可控性,团队提出 Step-Audio-Edit-Test 基准,用 Gemini2.5Pro 作为评审,从情感、风格、副语言三方面打分。
评测结果:
-
中文情感准确率由 57.0% 提升到 77.7%;
-
风格准确率由 41.6% 提升到 69.2%;
-
英文任务中亦有相近提升。
副语言编辑的平均得分由 1.91 提升至 2.89,已接近主流商用系统。更值得注意的是,Step-Audio-EditX 对闭源系统(如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0)也能带来明显提升。
Step-Audio-EditX 标志着可控语音合成迈入新阶段。它抛开波形级信号操作,以离散标记为核心,结合大间隔学习与强化优化,让语音编辑的体验首次接近文本编辑的顺手。
在技术与开放性上,StepFun AI 选择全链路开源(含模型权重与训练代码),大幅降低语音编辑的研发门槛。未来,开发者可以像改文字一样,精准掌控语音的情绪、语气与副语言细节。
项目地址:https://stepaudiollm.github.io/step-audio-editx/
论文:https://arxiv.org/pdf/2511.03601
GitHub:https://github.com/stepfun-ai/Step-Audio-EditX
在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?