Meta发布SAM Audio:首个可“点一下就分离声音”的多模态模型,一键抽取吉他、人声或狗叫

Meta推出音频处理领域的一项重量级新作——SAM Audio,这是一款统一的多模态音频分离模型。它让用户仿佛“用眼睛听声音”,能从混合的音视频里,一键提取目标声源:点一下视频里的吉他手,立刻得到干净的吉他轨;输入“狗吠”,即可把整段播客中的犬吠噪音过滤掉;甚至只需圈定一个时间片段,就能精准移除干扰。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁入AI系统。

111.jpg

SAM Audio的核心是自研的感知编码器视听(PE-AV),Meta称它是模型的“耳朵”。这一引擎在今年4月开源的Meta Perception Encoder视觉模型基础上扩展而成,首次高级视觉理解与音频信号深度融合,进而实现跨模态的声音定位与分离。

具体来说,SAM Audio提供三种直觉化交互,可单独使用,也能组合搭配:

– 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,自动抽取对应声源;

– 视觉提示:在视频画面中点击发声物体(如说话者、击鼓的手),系统即可分离出其音轨;

– 时间片段提示(行业首创):标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型会在整段录音中自动处理同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”。

222.jpg

为推动行业标准化,Meta同步开源两项关键工具:

– SAM Audio-Bench:首个面向真实场景的音频分离评测基准;

– SAM Audio Judge:全球首个专门评估音频分离质量的自动评分模型,可量化分离结果的纯净度与完整度。

333.jpg

此次发布的PE-AV不仅为SAM Audio提供底层能力,也将赋能Meta的其他AI应用,包括字幕生成、视频理解与智能剪辑系统。其开源意味着开发者可自建“视听联觉”类应用——从自动消噪会议记录、沉浸式AR音频交互,到无障碍辅助听觉设备。

在视频内容爆发的当下,SAM Audio的亮相,标志着音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们只能被动聆听;如今,Meta把“选择性听”的能力交到用户手中——而这或许只是多模态AI重塑感官体验的第一步。

体验地址:

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享