近日,Character AI 与耶鲁大学研究团队联合推出一项名为 Ovi 的开源音画同步视频生成技术。这一成果为音频与视频的协同生成带来新的突破,打破了过去的传统流程。
Ovi 采用创新的双骨干跨模态融合架构,把声音与画面视为一个不可分割的整体。两路信息并行处理并深度交流,使生成过程始终保持同步。这一思路不再沿用“先生成画面再配音”或“先有声音再补画面”的旧方法,直击音画不同步的核心问题。

在 Ovi 的设计中,系统包含两条功能一致的分支,分别处理视频与音频。两者采用相同的扩散变换器架构,让声画在生成阶段可以直接互动,同时减少不必要的参数与计算量。借助这种实时信息互通,Ovi 能精准学习音视频的对应关系,例如嘴部动作与发音的严密对齐。

为在时间维度上实现精细对齐,Ovi 引入了“旋转位置嵌入”技术。通过数学尺度映射,音频与视频的时间步被统一到同一节奏,确保生成时两者同步呈现。此外,Ovi 在处理用户输入时采用统一的文本提示策略,进一步提升生成结果的准确性与表现力。
在数据构建方面,Ovi 团队制定了完善的处理流程,兼顾数据的多样性与高质量。他们将音视频对齐数据与纯音频数据结合,给模型提供全面的学习基础。这套严谨的训练方案为 Ovi 的表现奠定了坚实底座。
github:https://github.com/character-ai/Ovi
划重点:
🌟 Ovi 是由 Character AI 与耶鲁大学联合推出的开源音画同步视频生成技术。
🎥 采用双骨干跨模态融合架构,实现声画的实时互动与高精度同步。
📊 团队搭建多样且高质量的数据集,为 Ovi 的训练与应用提供有力支持。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?