数字视频理解迎来新突破:MIT等机构打造全自动“运动数据工厂”

虽然数字化视频处理系统发展迅速,但面对复杂的空间运动与物理规律时,依旧存在明显的“理解不足”。它们可以描绘画面内容,却很难回答诸如“红车是否在蓝车拐弯前穿过路口”或“皮球运行轨迹最高点在哪里”这类需要精细物理逻辑的问题。

AI,人工智能

问题的根源在于高质量运动参考数据极度短缺。现有数据规模不大,还严重依赖昂贵的人工标注,难以支撑系统学习真实世界的细粒度物理运动。为解决这一难题,来自MIT、英伟达(NVIDIA)、加州大学伯克利分校等机构的团队推出了 FoundationMotion:一套完全不需要人工参与的自动化数据生成管线。

该管线的工作如同一个全自动的“运动数据工厂”,主要分为三个环节:

  • 轨迹提取: 借助先进的目标跟踪技术,把视频中的行人、车辆、机械臂等对象转化为连续的时空坐标轨迹。

  • 语义转化: 将抽象坐标数字变成结构化文本描述,并结合关键帧信息,为系统提供详尽的“运动说明书”。

  • 自动质检与生成: 通过逻辑校验与整合,自动生成涵盖速度、方向、时序关系与空间位置的精细化问答数据。

令人意外的是,实验显示,仅用这条管线生成的数据进行优化后,一个拥有 150 亿参数的视频分析模型在运动理解任务上的准确率达到 90.6%。这一成绩不仅超越了 720 亿参数的大型开源架构,甚至优于当下主流的商业闭源系统。

研究团队强调,提升主要得益于数据的纯净与准确,证明在自动驾驶、机器人协作等场景中,系统对物理世界的直觉可以通过规模化、高质量的自动化数据训练建立。这意味着数字化系统在迈向具备“物理常识”的具身技术路上,迈出了关键一步。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享