AI 视频创作正火,但“只有画面”或“声音不贴画”依然是影响沉浸感的最后一关。为破解这一痛点,阿里通义实验室近期发布了全新的视频生成音频(Video-to-Audio)框架——PrismAudio。该研究已被顶级 AI 会议 ICLR2026 收录,核心目标是为视频自动生成严丝合缝的环境声。

先动脑再开口:把“思维链”搬进配音
传统配音模型多是“凭直觉”生成,常见马蹄踩地却冒出鸟鸣,或声音慢半拍等问题。PrismAudio 的亮点在于学会了“先做笔记,再开口”。
-
分解式思维链: 出声前先拆解视频:画面有什么?声音从何时开始?音色是清亮还是厚重?声源在左边还是右边?
-
四重老师打分: 引入强化学习,由四位“虚拟老师”从语义一致、时间对齐、美学质量、空间定位四个角度同时评分,多维反馈让模型不再顾此失彼。
轻巧又迅速:9秒视频配音仅用约0.6秒
不仅听得准,PrismAudio 还跑得快。得益于自研的 Fast-GRPO 高效训练算法,性能跃升的同时仍保持极高的运行效率:
-
小模型大作为: 参数量仅 5.18 亿,明显小于不少动辄数十亿参数的同类模型。
-
响应飞快: 生成一段 9 秒的高质量音频仅需 0.63秒,几乎做到了“即传即得”。
行业观察:环境音效走向“更真”
PrismAudio 的出现,不只为影视后期、短视频创作带来强力的自动化工具,也为多目标生成任务提供了新思路。当 AI 能同时兼顾音色质感与空间方位,未来的视频创作将更接近“所见即所闻”。
论文地址:arXiv:2511.18833
开源地址:https://prismaudio-project.github.io/


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?