字节跳动商业化技术团队最近正式开源了一套名为Bernini的全新视频生成与编辑框架。这个框架的核心理念是“先理解,再生成”的协作机制,目标是更好解决传统模型因难以准确理解复杂指令而带来的画面失控、帧间闪动等行业难题。
目前,Bernini在字节内部测试中已经稳定处于行业领先阵营。其推理代码和第二阶段模型Bernini-R的使用权限现已开放,带有完整功能的全量版本也将在近期正式全面开放。

语义与渲染分步处理
Bernini在整体流程设计上做了新的尝试,把完整处理过程分成“语义规划”和“视觉渲染”两个相互独立的阶段。系统会先借助多模态大模型规划器深入理解输入内容,并绘制出一份“语义草图”,之后再交给渲染器,把已经规划好的目标生成稳定且连贯的视频画面。
正因为这种明确的职责划分,这套框架在可控编辑方面表现出了很强的实用性。用户不但可以通过简单指令,让画面中的天气、季节以及整体视觉风格自然变化,还可以对镜头角度、画面焦点和主体动作进行更精准的控制。
扩展视觉参考能力
除了常见的文本控制方式,Bernini还支持加入图片和视频作为视觉参考,明显增强了创作内容的一致性。在视频编辑场景里,它能够把指定材质或海报准确植入目标区域,同时保证边缘完整、透视关系正常。
在新视频生成场景下,这个模型不仅支持基于单张图片和多视角参考进行生成,还可以完成从关键帧到连续镜头的自然过渡。为了处理多个视觉片段串联时模型容易混淆的问题,团队还特别加入了专门的位置编码机制,用来确保参考素材和输出目标能够被清楚区分。
项目:https://bernini-ai.github.io/
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?