字节跳动开源 Bernini 框架:打通视频生成与精细化编辑能力

字节跳动商业化技术团队最近正式开源了一套名为Bernini的全新视频生成与编辑框架。这个框架的核心理念是“先理解,再生成”的协作机制,目标是更好解决传统模型因难以准确理解复杂指令而带来的画面失控、帧间闪动等行业难题。

目前,Bernini在字节内部测试中已经稳定处于行业领先阵营。其推理代码和第二阶段模型Bernini-R的使用权限现已开放,带有完整功能的全量版本也将在近期正式全面开放。

image.png

语义与渲染分步处理

Bernini在整体流程设计上做了新的尝试,把完整处理过程分成“语义规划”和“视觉渲染”两个相互独立的阶段。系统会先借助多模态大模型规划器深入理解输入内容,并绘制出一份“语义草图”,之后再交给渲染器,把已经规划好的目标生成稳定且连贯的视频画面。

正因为这种明确的职责划分,这套框架在可控编辑方面表现出了很强的实用性。用户不但可以通过简单指令,让画面中的天气、季节以及整体视觉风格自然变化,还可以对镜头角度、画面焦点和主体动作进行更精准的控制。

扩展视觉参考能力

除了常见的文本控制方式,Bernini还支持加入图片和视频作为视觉参考,明显增强了创作内容的一致性。在视频编辑场景里,它能够把指定材质或海报准确植入目标区域,同时保证边缘完整、透视关系正常。

在新视频生成场景下,这个模型不仅支持基于单张图片和多视角参考进行生成,还可以完成从关键帧到连续镜头的自然过渡。为了处理多个视觉片段串联时模型容易混淆的问题,团队还特别加入了专门的位置编码机制,用来确保参考素材和输出目标能够被清楚区分。

项目:https://bernini-ai.github.io/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享