像改Word一样编辑语音?阶跃星辰推出30亿参数音频编辑模型Step-Audio-EditX

音频创作的门槛被彻底拉平。国内AI独角兽阶跃星辰(StepStepFun AI)于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次带来“用自然语言就能编辑语音”的全新体验。只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”,模型就能精准调整音色、情绪、节奏,甚至呼吸停顿,让语音编辑像改文档一样直观、高效。

30亿参数,性能不降反升

Step-Audio-EditX的核心突破在于极致高效的模型压缩技术。团队把原本130亿参数的模型精炼到仅30亿,既大幅降低了部署成本,还在关键指标上实现反超。模型支持零样本语音克隆——只需一句参考音频,无需目标人物提供任何训练数据,即可高保真复刻其音色;同时支持多轮迭代编辑,用户可以连续下达细化指令(如“再温柔一点”“笑声延长0.3秒”),一步步打磨到理想效果。

image.png

方言与情感,拿捏到位

该模型对中文语境的理解格外出色,能够自然流畅地处理普通话、英语、四川话、粤语等,多地口音里的情绪表达与语用习惯都呈现得真实自然。盲测结果显示,评测员普遍认为其对“川渝段子的市井气”“粤语语气词的细腻度”的把握,明显优于同类产品。

对标闭源商用方案,三项核心指标全面领先

第三方评测获取的对比数据显示,Step-Audio-EditX在三大核心维度领先于Minimax与字节跳动Doubao等闭源方案:

自然度评分:4.72/5(Minimax4.51,Doubao4.38)

情感准确率:93.7%(领先第二名6.2个百分点)

音色保持度:98.1%,几乎无损还原

image.png

应用场景爆发:从短视频到无障碍

这一技术正催生全新的内容形态:

短视频创作者可一键切换“元气少女”“毒舌导师”等人设音色;

有声书作者一人即可完成多角色、强情感的对白;

四川话搞笑段子经AI重制,迅速变身美式脱口秀风格,轻松出海;

听障用户的语音合成系统首次具备“情感温度”,不再冷冰冰的机械感。

业界普遍认为,Step-Audio-EditX的意义远不止工具升级——它正在重塑音频内容的生产方式。当语音不再是“录了就定型”的线性媒介,而变成可反复雕琢的“活文本”,无数创作者将获得前所未有的表达自由。下一步,若阶跃星辰开放API或接入手机系统,这把“AI魔法剪刀手”或将走进每个人的口袋,让每一次发声,都能被重新定义。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享