Meta发布SAM Audio：首个可“点一下就分离声音”的多模态模型，一键抽取吉他、人声或狗叫-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Meta发布SAM Audio：首个可“点一下就分离声音”的多模态模型，一键抽取吉他、人声或狗叫

拥抱AI，AIGC最佳实践者

3814

Meta推出音频处理领域的一项重量级新作——SAM Audio，这是一款统一的多模态音频分离模型。它让用户仿佛“用眼睛听声音”，能从混合的音视频里，一键提取目标声源：点一下视频里的吉他手，立刻得到干净的吉他轨；输入“狗吠”，即可把整段播客中的犬吠噪音过滤掉；甚至只需圈定一个时间片段，就能精准移除干扰。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁入AI系统。

SAM Audio的核心是自研的感知编码器视听（PE-AV），Meta称它是模型的“耳朵”。这一引擎在今年4月开源的Meta Perception Encoder视觉模型基础上扩展而成，首次把高级视觉理解与音频信号深度融合，进而实现跨模态的声音定位与分离。

具体来说，SAM Audio提供三种直觉化交互，可单独使用，也能组合搭配:

– 文本提示：输入“人声演唱”“汽车喇叭”等语义描述，自动抽取对应声源；

– 视觉提示：在视频画面中点击发声物体（如说话者、击鼓的手），系统即可分离出其音轨；

– 时间片段提示（行业首创）：标记目标声音出现的时间区间（如“3分12秒到3分18秒”），模型会在整段录音中自动处理同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”。

为推动行业标准化，Meta同步开源两项关键工具：

– SAM Audio-Bench：首个面向真实场景的音频分离评测基准；

– SAM Audio Judge：全球首个专门评估音频分离质量的自动评分模型，可量化分离结果的纯净度与完整度。

此次发布的PE-AV不仅为SAM Audio提供底层能力，也将赋能Meta的其他AI应用，包括字幕生成、视频理解与智能剪辑系统。其开源意味着开发者可自建“视听联觉”类应用——从自动消噪会议记录、沉浸式AR音频交互，到无障碍辅助听觉设备。

在视频内容爆发的当下，SAM Audio的亮相，标志着音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们只能被动聆听；如今，Meta把“选择性听”的能力交到用户手中——而这或许只是多模态AI重塑感官体验的第一步。

体验地址：

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐