字节跳动推出“冲击级”AI模型 Vidi2：120亿参数，视频剪辑走向全自动-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

字节跳动刚刚上线其全新的多模态大语言模型 Vidi2，这是一款拥有120亿参数、重点针对视频理解的AI模型。它能处理数小时的原始素材，洞察故事线索，并依据简单提示自动生成完整的TikTok短视频或电影片段，被认为将对现有视频剪辑流程带来巨大改变。

突破:精细时空定位（STG）

Vidi2的核心优势在于视频理解能力。新模型加入了精细的时空定位（STG）模块，能够同时识别视频中的时间戳与目标对象的边界框。当给出文本查询时，Vidi2不仅会锁定对应时间段，还能在该时间范围内精准圈定具体物体的位置。

在技术细节上:

时空定位:模型返回“管道”（按时间索引的边界框），以一秒为粒度连续跟踪指定对象或人物，可直接用于编辑场景，例如在人群中精准追踪某个个体。
技术架构:Vidi2升级采用 Gemma-3 作为主干网络，并配合重构的自适应标记压缩方案，确保处理超长视频时既高效又不丢关键细节。

性能领跑:超长视频理解优势明显

在行业基准中，Vidi2表现突出。于开放式时间检索的 VUE-TR-V2基准中，其总体 IoU 达到 48.75；尤其在**超长视频（超过1小时）**的场景下，相比商业模型领先 17.5个百分点。在定位任务（VUE-STG）上，模型同样拿下 vIoU32.57 与 tIoU53.19 的最佳成绩。