突破长视频检索瓶颈!北大携手 OceanBase 推出 LoVR 基准:获 WWW 2026 收录,开辟“整片+片段级”智能检索新路径

长视频理解的“深水区”终于迎来了权威评测标尺。2026 年 3 月 2 日,由 与 共同提出的长视频多模态检索基准 LoVR (Long Video Retrieval) 被国际顶级会议 WWW 2026 (The Web Conference) 正式收录。

该成果弥补了行业在真实长视频(Long-form Video)多粒度检索评测方面的空白。

核心亮点:直面长视频检索“三大难关”

传统的视频检索基准大多聚焦短视频(如 TikTok 风格),难以覆盖长视频复杂语义。LoVR 针对性攻克三大痛点:

  • 粒度全覆盖:既能做全视频 (Video-level) 的整体检索,也能进行片段级 (Clip-level) 的精准定位,兼顾从“搜整部片子”到“搜某个瞬间”的多样需求。

  • 高质量规模标注:提供一套创新标注流程,结合大模型(VLM)自动生成、自动质评与动态校正,低成本构建可扩展的高质量多模态数据。

  • 贴近真实场景:系统建模长视频检索中的长程语义漂移、信息密度极高等真实难点。

技术参数:40,000+ 精细片段作支撑

不止是一个理论框架,更是一套体量可观的实战数据库:

  • 数据丰富:收录 467 个真实长视频,平均时长超过 25 分钟。

  • 精细切分:衍生出超过 40,804 个精细片段,每段均附有经人工与机器双重校验的高质量文本描述(Captions)。

  • 语义融合技术:采用语义融合方法,确保生成全视频摘要时不丢失关键上下文信息,为长程语义建模提供统一的评测平台。

行业观察:产学合作加速 AGI 落地

作为与北大产学联合研究的代表成果,LoVR 的入选意味着国产数据库领军企业正从单一的存储与计算走向 “向量检索+多模态理解” 的前沿方向。随着长视频在流媒体、安防监控、在线教育等领域的快速增长,LoVR 提供的多粒度检索标准将成为未来视频搜索引擎、AI 剪辑助手等应用走向“可靠”的关键基石。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享