数字视频理解迎来新突破：MIT等机构打造全自动“运动数据工厂”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

数字视频理解迎来新突破：MIT等机构打造全自动“运动数据工厂”

拥抱AI，AIGC最佳实践者

2413

虽然数字化视频处理系统发展迅速，但面对复杂的空间运动与物理规律时，依旧存在明显的“理解不足”。它们可以描绘画面内容，却很难回答诸如“红车是否在蓝车拐弯前穿过路口”或“皮球运行轨迹最高点在哪里”这类需要精细物理逻辑的问题。

AI，人工智能

问题的根源在于高质量运动参考数据极度短缺。现有数据规模不大，还严重依赖昂贵的人工标注，难以支撑系统学习真实世界的细粒度物理运动。为解决这一难题，来自MIT、英伟达（NVIDIA）、加州大学伯克利分校等机构的团队推出了 FoundationMotion：一套完全不需要人工参与的自动化数据生成管线。

该管线的工作如同一个全自动的“运动数据工厂”，主要分为三个环节：

轨迹提取： 借助先进的目标跟踪技术，把视频中的行人、车辆、机械臂等对象转化为连续的时空坐标轨迹。
语义转化： 将抽象坐标数字变成结构化文本描述，并结合关键帧信息，为系统提供详尽的“运动说明书”。
自动质检与生成： 通过逻辑校验与整合，自动生成涵盖速度、方向、时序关系与空间位置的精细化问答数据。

令人意外的是，实验显示，仅用这条管线生成的数据进行优化后，一个拥有 150 亿参数的视频分析模型在运动理解任务上的准确率达到 90.6%。这一成绩不仅超越了 720 亿参数的大型开源架构，甚至优于当下主流的商业闭源系统。

研究团队强调，提升主要得益于数据的纯净与准确，证明在自动驾驶、机器人协作等场景中，系统对物理世界的直觉可以通过规模化、高质量的自动化数据训练建立。这意味着数字化系统在迈向具备“物理常识”的具身技术路上，迈出了关键一步。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐