长视频理解的“深水区”终于迎来了权威评测标尺。2026 年 3 月 2 日,由 与 共同提出的长视频多模态检索基准 LoVR (Long Video Retrieval) 被国际顶级会议 WWW 2026 (The Web Conference) 正式收录。
该成果弥补了行业在真实长视频(Long-form Video)多粒度检索评测方面的空白。
核心亮点:直面长视频检索“三大难关”
传统的视频检索基准大多聚焦短视频(如 TikTok 风格),难以覆盖长视频复杂语义。LoVR 针对性攻克三大痛点:
-
粒度全覆盖:既能做全视频 (Video-level) 的整体检索,也能进行片段级 (Clip-level) 的精准定位,兼顾从“搜整部片子”到“搜某个瞬间”的多样需求。
-
高质量规模标注:提供一套创新标注流程,结合大模型(VLM)自动生成、自动质评与动态校正,低成本构建可扩展的高质量多模态数据。
-
贴近真实场景:系统建模长视频检索中的长程语义漂移、信息密度极高等真实难点。
技术参数:40,000+ 精细片段作支撑
-
数据丰富:收录 467 个真实长视频,平均时长超过 25 分钟。
-
精细切分:衍生出超过 40,804 个精细片段,每段均附有经人工与机器双重校验的高质量文本描述(Captions)。
-
语义融合技术:采用语义融合方法,确保生成全视频摘要时不丢失关键上下文信息,为长程语义建模提供统一的评测平台。
行业观察:产学合作加速 AGI 落地
作为

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?