Meta 发布面向音频处理的重磅新品——SAM Audio,这是一套统一的多模态音频分离模型。它让你像“用眼睛去听”一样,从混合的视频或音频中,一键抽出任意目标声源:点中画面里的吉他手,马上得到干净的吉他声;输入“狗吠”,播客里的犬吠噪声自动被过滤;甚至只需圈定一个时间段,就能精准去掉干扰音。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁移到AI系统。

SAM Audio 的核心是自研的视听感知编码器(PE-AV),Meta称它为模型的“耳朵”。该引擎源自今年4月开源的 Meta Perception Encoder 视觉模型并加以扩展,首次将高级视觉理解与音频信号深度融合,实现跨模态的声源定位与分离。
更具体地说,SAM Audio 支持三种直觉式交互,可单用或组合:
– 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,系统会自动抽取对应声源;
– 视觉提示:在视频中点一下正在发声的物体(如说话者、击鼓的手),即可分离其音频;
– 时间片段提示(行业首创):标出目标声出现的时间区间(如“3分12秒到3分18秒”),模型会在整段录音里自动处理同类声音——Meta把这类比为《赛博朋克2077》的“超梦”。

为推进标准化,Meta 同步开源两项关键工具:
– SAM Audio-Bench:首个面向真实场景的音频分离评测基准;
– SAM Audio Judge:全球首个专门评估音频分离质量的自动模型,可量化衡量分离后的纯净度与完整性。

此次亮相的 PE-AV 不只是 SAM Audio 的底层引擎,还会赋能 Meta 的其他AI能力,如字幕生成、视频理解与智能剪辑等。随着开源,开发者可打造自己的“视听联觉”应用——从会议记录自动降噪,到沉浸式 AR 音频交互,再到无障碍听觉辅助设备。
在视频内容激增的当下,SAM Audio 的出现,宣告音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们多是被动地听;现在,Meta 让我们拥有了“选择性聆听”的能力——而这或许只是多模态AI重塑感官体验的第一步。
体验地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?