StepFun AI 近期推出了开源音频编辑模型 Step-Audio-EditX。这款 3B 规模的创新模型,把音频编辑做得像文本处理一样直观、可控。通过把音频信号的修改转化为逐个令牌的操作,Step-Audio-EditX 让富有表现力的语音编辑更轻松。
目前,多数零样本文本到语音(TTS)系统在情感、风格、口音与音色的控制上仍有局限。它们虽能生成自然语音,却常难以精准符合用户需求。以往研究倾向于借助额外编码器与复杂架构来拆分这些因素,而 Step-Audio-EditX 则通过调配数据与训练目标来实现可控编辑。

Step-Audio-EditX 采用双代码本标记器,将语音映射为两路令牌流:一条是以 16.7Hz 记录的语言流,另一条是以 25Hz 记录的语义流。模型基于同时包含文本与音频令牌的混合语料训练,能够统一处理文本与音频输入。
该模型的关键在于大边距学习。后续训练阶段使用合成的大边距三元组与四元组来强化表现。借助约 60000 名说话者的高质量数据,模型在情感与风格编辑方面效果显著;同时引入人类评分与偏好数据进行强化学习,进一步提升语音生成的自然度与准确性。

为评估模型效果,研究团队提出 Step-Audio-Edit-Test 基准,并使用 Gemini2.5Pro 作为评审工具。测试显示,经过多轮编辑后,模型在情感与说话风格的准确性上均有明显提升。此外,Step-Audio-EditX 还可有效改善其他闭源 TTS 系统的音频质量,为音频编辑研究带来新的可能性。
论文:https://arxiv.org/abs/2511.03601
划重点:
🎤 **StepFun AI 发布 Step-Audio-EditX,让音频编辑更易上手。**
📈 **采用大边距学习,显著增强情感与风格的可控与准确。**
🔍 **推出 Step-Audio-Edit-Test 基准,音频质量评估更可靠、更全面。**

















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?