字节跳动发布Vidi2!AI视频编辑力压Gemini 3 Pro,长素材一键做成大片

字节跳动AI视频新纪元:Vidi2正式亮相

中国科技公司字节跳动近日重磅推出全新AI视频编辑器Vidi2,凭借突破性的视频理解与创作能力引发行业震动。依照最新技术评测,Vidi2在视频理解深度上已超越谷歌Gemini3Pro,被视作当前最先进的视频多模态模型。它为长时序视频而生,能够处理数小时的庞大素材,并可基于简短提示自动生成脚本、TikTok短视频或完整影片,显著降低视频创作门槛。

Vidi2的推出意味着字节跳动在多模态AI领域迈入关键阶段。作为TikTok与抖音的母公司,字节跳动长期深耕短视频生态,此次工具将进一步赋能全球创作者,推动AI从辅助走向核心生产力。

image.png

核心技术亮点:时空定位与全流程编辑

Vidi2的关键在于细粒度的时空定位,能精确捕捉视频中特定动作与对象出现的具体位置和时间段。传统视频AI往往难以“读懂”超长视频,容易把事件的开始、结束以及参与主体识别错位;而Vidi2通过多模态编码器与语言模型骨干,融合文本、画面帧与音频输入,实现近似像素级的分析与理解。

实际使用中,用户只需输入文本查询,模型即可返回精准的起止时间戳与目标对象的边界框轨迹(bounding box tube)。比如在数小时的纪录片里,检索“猫咪跳跃场景”,Vidi2不仅能定位到具体秒级片段,还可自动提取并剪成独立短视频。该模型采用自适应视觉令牌压缩技术,提升内存利用效率,不论片段极短或极长,都能保留关键上下文。

基准测试显示,Vidi2在VUE-STG(时空管基准)与VUE-TR-V2(时序检索基准)上明显领先Gemini3Pro与GPT-5等商用模型。在视频问答任务中,其准确率提升显著;在情节感知的自动编辑环节,支持一键裁剪、加字幕、重构故事图谱等功能。字节跳动团队称,模型训练数据融合了合成剪辑与海量真实视频,生成结果既高保真又流畅自然。

应用场景升级:从素材检索到智能脚本

Vidi2不仅是编辑器,也是智能创作助手。其端到端流程让视频生产从手动拉轨转向自然语言驱动:输入主题提示,模型即可自动给出标题、开场钩子、分镜脚本,并产出成品视频。创作者能轻松把长素材转成TikTok竖屏短片,或扩展为电影级叙事,适用于新闻、广告、娱乐等多种场景。

设想纪录片导演上传数小时原始素材,只需提示“聚焦环保主题的励志故事”,Vidi2就能生成完整脚本与剪辑大纲。不仅加速迭代,也让创意表达更具包容性;即便是非专业用户,也能通过简单对话实现专业级输出。

行业影响与未来展望

Vidi2的面世让全球AI视频赛道竞争更为激烈。字节跳动借此巩固其在多模态AI的领先位置:此前MagicVideo系列已展现文本生成视频的潜力,而Vidi2则把重点放在理解与编辑的闭环。专家认为,这一工具将重塑内容产业生态,降低制作成本,推动短视频向更长形式演进。

目前,Vidi2已在arXiv发布预印本,GitHub仓库开放源代码,演示版即将推出。字节跳动表示,将持续优化模型,支持更多语言与应用场景,推动AI普惠创作。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享