硅基智慧的“广角思维”:Google DeepMind 发布 D4RT,让 AI 拥有跨越时空的四维视野

一直以来,虽然相机让机器“看得见”,但要让它们像人类一样理解这个不断变化的世界——不仅看眼前,还能回溯过去、预测下一刻——始终是计算机视觉领域的最大挑战。就在今天,Google DeepMind发布了一项里程碑式成果:D4RT(Dynamic4D Reconstruction and Tracking)。这个全新的统一模型,把三维空间与时间维度无缝结合,宣告 AI 视觉正式迈入“四维全景感知”的新阶段。

image.png

D4RT 的问世,意味着机器视觉从“东拼西凑”走向“统一建模”的重大飞跃。过去,想从一段二维视频还原出立体而动态的场景,往往要叠加一堆模型:有的估深度,有的跟动作,有的算相机位姿。这样不仅臃肿慢,还让理解割裂。而 D4RT 采用一种简洁的“查询式”框架,把繁杂任务归结到一个关键提问:“视频里某个像素,在某一时刻、从某个视角看过去,究竟落在三维空间的哪里?”

image.png

这种“按需查询”的思路,让 D4RT 展现出惊人效率。测试显示,它比此前的标杆方法提速 18~300 倍。一段 1 分钟的视频,过去即便用顶尖算力也要耗时 10 分钟,如今 D4RT 只需约 5 秒即可完成。这意味着,AI首次真正具备了在真实环境中实时构建四维地图的可能。

image.png

不仅速度大幅领先,D4RT 在理解深度上也进一步突破:

  • 跨时空像素跟踪:就算目标出框或被短暂遮挡,D4RT 仍能凭借强力的内部世界建模,推断其在 3D+时间中的运动路径。

  • 瞬时整场重建:如同“定格时间”,可直接产出场景的精准 3D 结构,无需反复迭代求解。

  • 自适应相机感知:通过自动对齐多视角快照,准确恢复相机本身的运动轨迹。

无论是机器人灵活避障,还是增强现实(AR)眼镜的低时延贴合,再到打造更懂物理常识的通用智能,D4RT 为我们展现了一个 AI 能“真实感知”的未来。这不只是算法升级,而是让数字智能真正读懂我们身处的这个流动的、四维的现实世界。

image.png

想更深入了解 D4RT 在机器人导航或 AR 场景的具体落地吗?我可以继续为你展示更多技术细节应用场景

详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享