虽然数字化视频处理系统发展迅速,但面对复杂的空间运动与物理规律时,依旧存在明显的“理解不足”。它们可以描绘画面内容,却很难回答诸如“红车是否在蓝车拐弯前穿过路口”或“皮球运行轨迹最高点在哪里”这类需要精细物理逻辑的问题。

问题的根源在于高质量运动参考数据极度短缺。现有数据规模不大,还严重依赖昂贵的人工标注,难以支撑系统学习真实世界的细粒度物理运动。为解决这一难题,来自MIT、英伟达(NVIDIA)、加州大学伯克利分校等机构的团队推出了 FoundationMotion:一套完全不需要人工参与的自动化数据生成管线。
该管线的工作如同一个全自动的“运动数据工厂”,主要分为三个环节:
-
轨迹提取: 借助先进的目标跟踪技术,把视频中的行人、车辆、机械臂等对象转化为连续的时空坐标轨迹。
-
语义转化: 将抽象坐标数字变成结构化文本描述,并结合关键帧信息,为系统提供详尽的“运动说明书”。
-
自动质检与生成: 通过逻辑校验与整合,自动生成涵盖速度、方向、时序关系与空间位置的精细化问答数据。
令人意外的是,实验显示,仅用这条管线生成的数据进行优化后,一个拥有 150 亿参数的视频分析模型在运动理解任务上的准确率达到 90.6%。这一成绩不仅超越了 720 亿参数的大型开源架构,甚至优于当下主流的商业闭源系统。
研究团队强调,提升主要得益于数据的纯净与准确,证明在自动驾驶、机器人协作等场景中,系统对物理世界的直觉可以通过规模化、高质量的自动化数据训练建立。这意味着数字化系统在迈向具备“物理常识”的具身技术路上,迈出了关键一步。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?