Character AI 携耶鲁大学发布 Ovi：实现音画精准同轨的视频生成-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Character AI 携耶鲁大学发布 Ovi：实现音画精准同轨的视频生成

拥抱AI，AIGC最佳实践者

605

近日，Character AI 与耶鲁大学研究团队联合推出一项名为 Ovi 的开源音画同步视频生成技术。这一成果为音频与视频的协同生成带来新的突破，打破了过去的传统流程。

Ovi 采用创新的双骨干跨模态融合架构，把声音与画面视为一个不可分割的整体。两路信息并行处理并深度交流，使生成过程始终保持同步。这一思路不再沿用“先生成画面再配音”或“先有声音再补画面”的旧方法，直击音画不同步的核心问题。

在 Ovi 的设计中，系统包含两条功能一致的分支，分别处理视频与音频。两者采用相同的扩散变换器架构，让声画在生成阶段可以直接互动，同时减少不必要的参数与计算量。借助这种实时信息互通，Ovi 能精准学习音视频的对应关系，例如嘴部动作与发音的严密对齐。

为在时间维度上实现精细对齐，Ovi 引入了“旋转位置嵌入”技术。通过数学尺度映射，音频与视频的时间步被统一到同一节奏，确保生成时两者同步呈现。此外，Ovi 在处理用户输入时采用统一的文本提示策略，进一步提升生成结果的准确性与表现力。

在数据构建方面，Ovi 团队制定了完善的处理流程，兼顾数据的多样性与高质量。他们将音视频对齐数据与纯音频数据结合，给模型提供全面的学习基础。这套严谨的训练方案为 Ovi 的表现奠定了坚实底座。

github:https://github.com/character-ai/Ovi

划重点:

🌟 Ovi 是由 Character AI 与耶鲁大学联合推出的开源音画同步视频生成技术。

🎥 采用双骨干跨模态融合架构，实现声画的实时互动与高精度同步。

📊 团队搭建多样且高质量的数据集，为 Ovi 的训练与应用提供有力支持。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐