像改Word一样编辑语音？阶跃星辰推出30亿参数音频编辑模型Step-Audio-EditX-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

音频创作的门槛被彻底拉平。国内AI独角兽阶跃星辰（StepStepFun AI）于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX，首次带来“用自然语言就能编辑语音”的全新体验。只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”，模型就能精准调整音色、情绪、节奏，甚至呼吸停顿，让语音编辑像改文档一样直观、高效。

30亿参数，性能不降反升

Step-Audio-EditX的核心突破在于极致高效的模型压缩技术。团队把原本130亿参数的模型精炼到仅30亿，既大幅降低了部署成本，还在关键指标上实现反超。模型支持零样本语音克隆——只需一句参考音频，无需目标人物提供任何训练数据，即可高保真复刻其音色；同时支持多轮迭代编辑，用户可以连续下达细化指令（如“再温柔一点”“笑声延长0.3秒”），一步步打磨到理想效果。

方言与情感，拿捏到位

该模型对中文语境的理解格外出色，能够自然流畅地处理普通话、英语、四川话、粤语等，多地口音里的情绪表达与语用习惯都呈现得真实自然。盲测结果显示，评测员普遍认为其对“川渝段子的市井气”“粤语语气词的细腻度”的把握，明显优于同类产品。

对标闭源商用方案，三项核心指标全面领先

第三方评测获取的对比数据显示，Step-Audio-EditX在三大核心维度领先于Minimax与字节跳动Doubao等闭源方案:

自然度评分:4.72/5（Minimax4.51，Doubao4.38）

情感准确率:93.7%（领先第二名6.2个百分点）

音色保持度:98.1%，几乎无损还原

应用场景爆发：从短视频到无障碍

这一技术正催生全新的内容形态：

短视频创作者可一键切换“元气少女”“毒舌导师”等人设音色；

有声书作者一人即可完成多角色、强情感的对白；

四川话搞笑段子经AI重制，迅速变身美式脱口秀风格，轻松出海；

听障用户的语音合成系统首次具备“情感温度”，不再冷冰冰的机械感。

业界普遍认为，Step-Audio-EditX的意义远不止工具升级——它正在重塑音频内容的生产方式。当语音不再是“录了就定型”的线性媒介，而变成可反复雕琢的“活文本”，无数创作者将获得前所未有的表达自由。下一步，若阶跃星辰开放API或接入手机系统，这把“AI魔法剪刀手”或将走进每个人的口袋，让每一次发声，都能被重新定义。

产品入口:https://stepaudiollm.github.io/step-audio-editx/