AI音频编辑进入新阶段:腾讯混元携手多所高校推出MMAE基准,现有模型精准编辑率不足5%

人工智能在音频生成方面已经取得不少进展,但在“编辑”现有音频这件事上,能力依然存在明显不足。近日,腾讯混元(Tencent Hunyuan)联合上海交通大学(SJTU)、新加坡南洋理工大学(NTU)、天津大学(TJU)、北京大学(PKU)、复旦大学(FDU)等多家科研机构,共同发布了MMAE(Massive Multitask Audio Editing Benchmark)。这是首个面向通用指令驱动音频编辑的大规模多任务基准,为AI音频编辑提供了更系统的评测标准,也进一步说明当前技术在精准修改音频方面仍有较大提升空间。

从“生成”走向“编辑”:AI音频能力迎来更高要求

过去,音频AI更多集中在根据文本或提示直接生成新内容,而MMAE基准更看重的是另一种能力:模型需要理解已有音频内容,并按照自然语言指令完成精确修改。也就是说,只调整该改的部分,其他内容尽量保持原样不变。这种“编辑”而不是“整体重做”的能力,对音频保真、指令理解和上下文把握都提出了更高要求,也更符合真实使用场景,比如播客后期、音乐混音以及个性化语音处理等。

测试结果表明,目前主流模型在精确匹配率(Exact Match Rate,EMR)上的表现普遍不到5%,这说明可靠的音频编辑技术距离成熟还有不小差距。换句话说,AI在实际编辑过程中,仍然容易出现修改过头、没有完全执行指令,或者影响原始音质等问题。

MMAE基准的特点:多维评测贴近真实应用

MMAE基准整体设计较为完整,主要包含以下几个核心部分:

  • 2000个高保真样本:全部取自真实世界场景,保证评测结果更具实用价值和丰富性。
  • 17741项细粒度评估指标:配套详细的rubric评分体系,便于进行更加客观的量化分析。
  • 7种模态设置:覆盖声音、音乐、语音以及它们的混合形式,可用于测试复杂音频环境下的编辑能力。
  • 6级任务复杂度:从简单修改逐步扩展到多跳推理和多轮编辑,更全面地检验模型上限。
  • 8种操作类型:同时支持局部和全局不同粒度的编辑任务,对模型的精细控制能力提出挑战。

点评:MMAE不只是一个评测工具,也被视作推动音频AI从“生成”迈向“编辑”的重要一步。它为研究人员和开发团队提供了统一的衡量标准,有助于加快下一代音频编辑模型的发展。

未来展望:音频编辑有望成为AI多模态能力的重要一环

随着多模态大模型持续快速演进,精准音频编辑未来有望在内容创作、影视后期、无障碍辅助等多个领域发挥更大作用。腾讯混元等机构此次联合推进相关研究,也体现出国内AI团队在音频方向上的前瞻布局。接下来,行业也期待看到更多开源资源和新模型出现,一起推动这一技术短板尽快被补齐。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享