硅基智慧的“广角思维”:Google DeepMind 发布 D4RT,让 AI 拥有跨越时空的四维视野

多年来,相机让机器“看得到”,可要让它们像人类那样读懂这个不断变化的世界——既看眼前,也能回溯之前、预判之后——始终是计算机视觉的终极挑战。今天,Google DeepMind公布了一项里程碑研究:D4RT (Dynamic4D Reconstruction and Tracking)。这个统一的 AI 模型把三维空间与时间这第四维紧密融合,正式把机器视觉带入“四维全感知”的新阶段。

image.png

有了 D4RT,机器视觉从“东拼西凑”走向“整体建模”。过去,要让 AI 从普通 2D 视频还原出立体、动态的真实世界,往往得堆好多模型:一个估深度、一个追动作、一个算相机位姿……不仅臃肿,还让认知割裂。D4RT 采用优雅的“查询式”架构,把复杂任务化成一个核心问题:“在某一时刻、从某个镜头看到的某个像素,究竟在三维空间的哪个位置?”

image.png

这种“按需查询”的思路,让 D4RT 展现出惊人的效率。测试显示,它比以往的主流方法快 18 到 300 倍。一段 1 分钟视频,以前即便用顶级算力也得算上十来分钟,而 D4RT 只需约 5 秒就能完成。这意味着,AI 第一次真正有望在真实环境中实时构建四维地图。

image.png

除了速度的巨大提升,D4RT 在理解画面的深度上也迈出关键一步:

  • 全时空像素跟踪:即便物体短暂出镜或被遮住,D4RT 也能依靠内部世界模型,推断它在三维时空中的连续轨迹。

  • 即时整体重建:就像按下“时间暂停键”,可直接生成精确的场景 3D 结构,无需反复迭代优化。

  • 自适应相机轨迹恢复:通过自动对齐不同视角的帧,精准复原相机本身的运动路径。

从机器人灵活避障,到低延迟的 AR 眼镜贴合,再到具备物理直觉的通用 AI,D4RT 勾勒出一个 AI 能“真切感知”世界的图景。这已不只是算法升级,而是让数字智能真正看懂我们所处这个流动、四维的现实。

image.png

想更深入了解 D4RT 在机器人导航或 AR 领域如何落地?我可以为你展示更多技术细节应用场景

详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享