AI音频编辑进入新阶段：腾讯混元携手多所高校推出MMAE基准，现有模型精准编辑率不足5%

拥抱AI，AIGC最佳实践者

525

人工智能在音频生成方面已经取得不少进展，但在“编辑”现有音频这件事上，能力依然存在明显不足。近日，腾讯混元（Tencent Hunyuan）联合上海交通大学（SJTU）、新加坡南洋理工大学（NTU）、天津大学（TJU）、北京大学（PKU）、复旦大学（FDU）等多家科研机构，共同发布了MMAE（Massive Multitask Audio Editing Benchmark）。这是首个面向通用指令驱动音频编辑的大规模多任务基准，为AI音频编辑提供了更系统的评测标准，也进一步说明当前技术在精准修改音频方面仍有较大提升空间。

从“生成”走向“编辑”：AI音频能力迎来更高要求

过去，音频AI更多集中在根据文本或提示直接生成新内容，而MMAE基准更看重的是另一种能力：模型需要理解已有音频内容，并按照自然语言指令完成精确修改。也就是说，只调整该改的部分，其他内容尽量保持原样不变。这种“编辑”而不是“整体重做”的能力，对音频保真、指令理解和上下文把握都提出了更高要求，也更符合真实使用场景，比如播客后期、音乐混音以及个性化语音处理等。

测试结果表明，目前主流模型在精确匹配率（Exact Match Rate，EMR）上的表现普遍不到5%，这说明可靠的音频编辑技术距离成熟还有不小差距。换句话说，AI在实际编辑过程中，仍然容易出现修改过头、没有完全执行指令，或者影响原始音质等问题。

MMAE基准的特点：多维评测贴近真实应用

MMAE基准整体设计较为完整，主要包含以下几个核心部分：

2000个高保真样本：全部取自真实世界场景，保证评测结果更具实用价值和丰富性。
17741项细粒度评估指标：配套详细的rubric评分体系，便于进行更加客观的量化分析。
7种模态设置：覆盖声音、音乐、语音以及它们的混合形式，可用于测试复杂音频环境下的编辑能力。
6级任务复杂度：从简单修改逐步扩展到多跳推理和多轮编辑，更全面地检验模型上限。
8种操作类型：同时支持局部和全局不同粒度的编辑任务，对模型的精细控制能力提出挑战。

点评：MMAE不只是一个评测工具，也被视作推动音频AI从“生成”迈向“编辑”的重要一步。它为研究人员和开发团队提供了统一的衡量标准，有助于加快下一代音频编辑模型的发展。

未来展望：音频编辑有望成为AI多模态能力的重要一环

随着多模态大模型持续快速演进，精准音频编辑未来有望在内容创作、影视后期、无障碍辅助等多个领域发挥更大作用。腾讯混元等机构此次联合推进相关研究，也体现出国内AI团队在音频方向上的前瞻布局。接下来，行业也期待看到更多开源资源和新模型出现，一起推动这一技术短板尽快被补齐。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐