StepFun AI 开源音频编辑模型 Step-Audio-EditX,让音频编辑像改文本一样简单

StepFun AI 近期推出了开源音频编辑模型 Step-Audio-EditX。这款 3B 规模的创新模型,把音频编辑做得像文本处理一样直观、可控。通过把音频信号的修改转化为逐个令牌的操作,Step-Audio-EditX 让富有表现力的语音编辑更轻松。

目前,多数零样本文本到语音(TTS)系统在情感、风格、口音与音色的控制上仍有局限。它们虽能生成自然语音,却常难以精准符合用户需求。以往研究倾向于借助额外编码器与复杂架构来拆分这些因素,而 Step-Audio-EditX 则通过调配数据与训练目标来实现可控编辑。

image.png

Step-Audio-EditX 采用双代码本标记器,将语音映射为两路令牌流:一条是以 16.7Hz 记录的语言流,另一条是以 25Hz 记录的语义流。模型基于同时包含文本与音频令牌的混合语料训练,能够统一处理文本与音频输入。

该模型的关键在于大边距学习。后续训练阶段使用合成的大边距三元组与四元组来强化表现。借助约 60000 名说话者的高质量数据,模型在情感与风格编辑方面效果显著;同时引入人类评分与偏好数据进行强化学习,进一步提升语音生成的自然度与准确性。

image.png

为评估模型效果,研究团队提出 Step-Audio-Edit-Test 基准,并使用 Gemini2.5Pro 作为评审工具。测试显示,经过多轮编辑后,模型在情感与说话风格的准确性上均有明显提升。此外,Step-Audio-EditX 还可有效改善其他闭源 TTS 系统的音频质量,为音频编辑研究带来新的可能性。

论文:https://arxiv.org/abs/2511.03601

划重点:  

🎤 **StepFun AI 发布 Step-Audio-EditX,让音频编辑更易上手。**  

📈 **采用大边距学习,显著增强情感与风格的可控与准确。**  

🔍 **推出 Step-Audio-Edit-Test 基准,音频质量评估更可靠、更全面。**

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享