Meta推出音频处理领域的一项重量级新作——SAM Audio,这是一款统一的多模态音频分离模型。它让用户仿佛“用眼睛听声音”,能从混合的音视频里,一键提取目标声源:点一下视频里的吉他手,立刻得到干净的吉他轨;输入“狗吠”,即可把整段播客中的犬吠噪音过滤掉;甚至只需圈定一个时间片段,就能精准移除干扰。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁入AI系统。

SAM Audio的核心是自研的感知编码器视听(PE-AV),Meta称它是模型的“耳朵”。这一引擎在今年4月开源的Meta Perception Encoder视觉模型基础上扩展而成,首次把高级视觉理解与音频信号深度融合,进而实现跨模态的声音定位与分离。
具体来说,SAM Audio提供三种直觉化交互,可单独使用,也能组合搭配:
– 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,自动抽取对应声源;
– 视觉提示:在视频画面中点击发声物体(如说话者、击鼓的手),系统即可分离出其音轨;
– 时间片段提示(行业首创):标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型会在整段录音中自动处理同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”。

为推动行业标准化,Meta同步开源两项关键工具:
– SAM Audio-Bench:首个面向真实场景的音频分离评测基准;
– SAM Audio Judge:全球首个专门评估音频分离质量的自动评分模型,可量化分离结果的纯净度与完整度。

此次发布的PE-AV不仅为SAM Audio提供底层能力,也将赋能Meta的其他AI应用,包括字幕生成、视频理解与智能剪辑系统。其开源意味着开发者可自建“视听联觉”类应用——从自动消噪会议记录、沉浸式AR音频交互,到无障碍辅助听觉设备。
在视频内容爆发的当下,SAM Audio的亮相,标志着音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们只能被动聆听;如今,Meta把“选择性听”的能力交到用户手中——而这或许只是多模态AI重塑感官体验的第一步。
体验地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?