Character AI 携耶鲁大学发布 Ovi:实现音画精准同轨的视频生成

近日,Character AI 与耶鲁大学研究团队联合推出一项名为 Ovi 的开源音画同步视频生成技术。这一成果为音频与视频的协同生成带来新的突破,打破了过去的传统流程。

Ovi 采用创新的双骨干跨模态融合架构,把声音与画面视为一个不可分割的整体。两路信息并行处理并深度交流,使生成过程始终保持同步。这一思路不再沿用“先生成画面再配音”或“先有声音再补画面”的旧方法,直击音画不同步的核心问题。

image.png

在 Ovi 的设计中,系统包含两条功能一致的分支,分别处理视频与音频。两者采用相同的扩散变换器架构,让声画在生成阶段可以直接互动,同时减少不必要的参数与计算量。借助这种实时信息互通,Ovi 能精准学习音视频的对应关系,例如嘴部动作与发音的严密对齐。

image.png

为在时间维度上实现精细对齐,Ovi 引入了“旋转位置嵌入”技术。通过数学尺度映射,音频与视频的时间步被统一到同一节奏,确保生成时两者同步呈现。此外,Ovi 在处理用户输入时采用统一的文本提示策略,进一步提升生成结果的准确性与表现力。

在数据构建方面,Ovi 团队制定了完善的处理流程,兼顾数据的多样性与高质量。他们将音视频对齐数据与纯音频数据结合,给模型提供全面的学习基础。这套严谨的训练方案为 Ovi 的表现奠定了坚实底座。

github:https://github.com/character-ai/Ovi

划重点:

🌟 Ovi 是由 Character AI 与耶鲁大学联合推出的开源音画同步视频生成技术。

🎥 采用双骨干跨模态融合架构,实现声画的实时互动与高精度同步。

📊 团队搭建多样且高质量的数据集,为 Ovi 的训练与应用提供有力支持。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享