先弄懂再开做！字节开源统一框架 Bernini，让 AI 视频编辑不再靠“试手气”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

AI 视频生成和编辑领域正在迎来一次底层思路的升级。字节跳动商业化技术团队近日正式开源了面向视频生成与视频编辑的统一框架——Bernini。这个框架的核心理念是“先理解，再生成”的协同机制，目标就是解决传统模型因为难以准确理解复杂文本指令，而出现画面失控、帧间闪烁等行业难题。

过去的视频编辑经常会遇到主体变形、背景偏移、动作不连贯等技术问题。为了突破这一局面，Bernini将整个流程拆成了“语义规划”和“视觉渲染”两个部分。系统会先借助多模态大模型规划器（MLLM-based planner），深入分析文本、视频以及参考图片等输入内容，并在特征空间中预测目标语义表示，也就是先画出一张不受像素限制的“语义草图”；之后，再交给基于 Diffusion Transformer 的渲染器（DiT-based renderer）完成高质量视觉渲染，把已经规划好的语义目标稳定地转换成连续的视频画面。

正因为有了这样的分工，Bernini在可控编辑方面表现出了很高的应用价值。用户不仅可以通过一句指令，让画面里的天气、季节、材质和视觉风格自然真实地发生变化，还能对镜头视角、焦点位置以及主体动作进行更精确的语义控制。比如，在保持环境和镜头基本稳定的情况下，系统能够让视频中的动物动作自然变化，让 AI 视频编辑更接近传统后期软件的精细操作水平。

除了文字控制，Bernini还支持把图片和视频作为视觉参考，进一步增强创作内容的一致性。在视频编辑场景下，它可以把特定材质、指定主体，甚至广告海报准确植入视频中的目标区域，保证边缘完整、透视自然；而在新视频生成场景中，这个模型支持单图参考生成、多角度参考生成、从关键帧过渡到连续镜头，甚至还能把几个看起来毫不相关的单品图像自然组合到同一个视频角色身上。

为了处理多个视觉片段串联时模型容易混淆的问题，团队还加入了 SA-3D RoPE 位置编码机制，为不同视觉片段设置专属标记，从而在保留时空位置关系的同时，区分清楚参考素材和输出目标。目前，在字节内部搭建的测试中，该框架已经稳定处于行业第一梯队。根据介绍，Bernini的推理代码以及第二阶段模型 Bernini-R 的权限已经正式开放，包含完整 MLLM 规划器的全版本也将在近期全面放出。