告别“声画脱节”：通义实验室推出 PrismAudio，让 AI 先懂视频再开口配音-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

告别“声画脱节”：通义实验室推出 PrismAudio，让 AI 先懂视频再开口配音

拥抱AI，AIGC最佳实践者

5112

AI 视频创作正火，但“只有画面”或“声音不贴画”依然是影响沉浸感的最后一关。为破解这一痛点，阿里通义实验室近期发布了全新的视频生成音频（Video-to-Audio）框架——PrismAudio。该研究已被顶级 AI 会议 ICLR2026 收录，核心目标是为视频自动生成严丝合缝的环境声。

先动脑再开口：把“思维链”搬进配音

传统配音模型多是“凭直觉”生成，常见马蹄踩地却冒出鸟鸣，或声音慢半拍等问题。PrismAudio 的亮点在于学会了“先做笔记，再开口”。

分解式思维链: 出声前先拆解视频：画面有什么？声音从何时开始？音色是清亮还是厚重？声源在左边还是右边？
四重老师打分: 引入强化学习，由四位“虚拟老师”从语义一致、时间对齐、美学质量、空间定位四个角度同时评分，多维反馈让模型不再顾此失彼。

轻巧又迅速：9秒视频配音仅用约0.6秒

不仅听得准，PrismAudio 还跑得快。得益于自研的 Fast-GRPO 高效训练算法，性能跃升的同时仍保持极高的运行效率：

小模型大作为: 参数量仅 5.18 亿，明显小于不少动辄数十亿参数的同类模型。
响应飞快: 生成一段 9 秒的高质量音频仅需 0.63秒，几乎做到了“即传即得”。

行业观察：环境音效走向“更真”

PrismAudio 的出现，不只为影视后期、短视频创作带来强力的自动化工具，也为多目标生成任务提供了新思路。当 AI 能同时兼顾音色质感与空间方位，未来的视频创作将更接近“所见即所闻”。

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐