Meta推SAM Audio:全球首款支持“点选分离”的多模态音频模型,一键抽取吉他、人声或犬吠

Meta 发布面向音频处理的重磅新品——SAM Audio,这是一套统一的多模态音频分离模型。它让你像“用眼睛去听”一样,从混合的视频或音频中,一键抽出任意目标声源:点中画面里的吉他手,马上得到干净的吉他声;输入“狗吠”,播客里的犬吠噪声自动被过滤;甚至只需圈定一个时间段,就能精准去掉干扰音。该技术首次把人类自然感知声音的方式——看、说、指、选——完整迁移到AI系统。

111.jpg

SAM Audio 的核心是自研的视听感知编码器(PE-AV),Meta称它为模型的“耳朵”。该引擎源自今年4月开源的 Meta Perception Encoder 视觉模型并加以扩展,首次高级视觉理解与音频信号深度融合,实现跨模态的声源定位与分离。

更具体地说,SAM Audio 支持三种直觉式交互,可单用或组合:

– 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,系统会自动抽取对应声源;

– 视觉提示:在视频中点一下正在发声的物体(如说话者、击鼓的手),即可分离其音频;

– 时间片段提示(行业首创):标出目标声出现的时间区间(如“3分12秒到3分18秒”),模型会在整段录音里自动处理同类声音——Meta把这类比为《赛博朋克2077》的“超梦”。

222.jpg

为推进标准化,Meta 同步开源两项关键工具:

– SAM Audio-Bench:首个面向真实场景的音频分离评测基准;

– SAM Audio Judge:全球首个专门评估音频分离质量的自动模型,可量化衡量分离后的纯净度与完整性。

333.jpg

此次亮相的 PE-AV 不只是 SAM Audio 的底层引擎,还会赋能 Meta 的其他AI能力,如字幕生成、视频理解与智能剪辑等。随着开源,开发者可打造自己的“视听联觉”应用——从会议记录自动降噪,到沉浸式 AR 音频交互,再到无障碍听觉辅助设备。

在视频内容激增的当下,SAM Audio 的出现,宣告音频处理进入“可交互、可编辑、可理解”的新阶段。过去我们多是被动地听;现在,Meta 让我们拥有了“选择性聆听”的能力——而这或许只是多模态AI重塑感官体验的第一步。

体验地址:

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享