Meta推SAM Audio：全球首款支持“点选分离”的多模态音频模型，一键抽取吉他、人声或犬吠-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Meta推SAM Audio：全球首款支持“点选分离”的多模态音频模型，一键抽取吉他、人声或犬吠

拥抱AI，AIGC最佳实践者

486

Meta 发布面向音频处理的重磅新品——SAM Audio，这是一套统一的多模态音频分离模型。它让你像“用眼睛去听”一样，从混合的视频或音频中，一键抽出任意目标声源：点中画面里的吉他手，马上得到干净的吉他声；输入“狗吠”，播客里的犬吠噪声自动被过滤；甚至只需圈定一个时间段，就能精准去掉干扰音。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁移到AI系统。

SAM Audio 的核心是自研的视听感知编码器（PE-AV），Meta称它为模型的“耳朵”。该引擎源自今年4月开源的 Meta Perception Encoder 视觉模型并加以扩展，首次将高级视觉理解与音频信号深度融合，实现跨模态的声源定位与分离。

更具体地说，SAM Audio 支持三种直觉式交互，可单用或组合:

– 文本提示：输入“人声演唱”“汽车喇叭”等语义描述，系统会自动抽取对应声源；

– 视觉提示：在视频中点一下正在发声的物体（如说话者、击鼓的手），即可分离其音频；

– 时间片段提示（行业首创）：标出目标声出现的时间区间（如“3分12秒到3分18秒”），模型会在整段录音里自动处理同类声音——Meta把这类比为《赛博朋克2077》的“超梦”。

为推进标准化，Meta 同步开源两项关键工具:

– SAM Audio-Bench：首个面向真实场景的音频分离评测基准；

– SAM Audio Judge：全球首个专门评估音频分离质量的自动模型，可量化衡量分离后的纯净度与完整性。

此次亮相的 PE-AV 不只是 SAM Audio 的底层引擎，还会赋能 Meta 的其他AI能力，如字幕生成、视频理解与智能剪辑等。随着开源，开发者可打造自己的“视听联觉”应用——从会议记录自动降噪，到沉浸式 AR 音频交互，再到无障碍听觉辅助设备。

在视频内容激增的当下，SAM Audio 的出现，宣告音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们多是被动地听；现在，Meta 让我们拥有了“选择性聆听”的能力——而这或许只是多模态AI重塑感官体验的第一步。

体验地址：

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐