告别“声画脱节”:通义实验室推出 PrismAudio,让 AI 先懂视频再开口配音

AI 视频创作正火,但“只有画面”或“声音不贴画”依然是影响沉浸感的最后一关。为破解这一痛点,阿里通义实验室近期发布了全新的视频生成音频(Video-to-Audio)框架——PrismAudio。该研究已被顶级 AI 会议 ICLR2026 收录,核心目标是为视频自动生成严丝合缝的环境声。

image.png

先动脑再开口:把“思维链”搬进配音

传统配音模型多是“凭直觉”生成,常见马蹄踩地却冒出鸟鸣,或声音慢半拍等问题。PrismAudio 的亮点在于学会了“先做笔记,再开口”。

  • 分解式思维链: 出声前先拆解视频:画面有什么?声音从何时开始?音色是清亮还是厚重?声源在左边还是右边?

  • 四重老师打分: 引入强化学习,由四位“虚拟老师”从语义一致、时间对齐、美学质量、空间定位四个角度同时评分,多维反馈让模型不再顾此失彼。

轻巧又迅速:9秒视频配音仅用约0.6秒

不仅听得准,PrismAudio 还跑得快。得益于自研的 Fast-GRPO 高效训练算法,性能跃升的同时仍保持极高的运行效率:

  • 小模型大作为: 参数量仅 5.18 亿,明显小于不少动辄数十亿参数的同类模型。

  • 响应飞快: 生成一段 9 秒的高质量音频仅需 0.63秒,几乎做到了“即传即得”。

行业观察:环境音效走向“更真”

PrismAudio 的出现,不只为影视后期、短视频创作带来强力的自动化工具,也为多目标生成任务提供了新思路。当 AI 能同时兼顾音色质感与空间方位,未来的视频创作将更接近“所见即所闻”。

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享