多年来,相机让机器“看得到”,可要让它们像人类那样读懂这个不断变化的世界——既看眼前,也能回溯之前、预判之后——始终是计算机视觉的终极挑战。今天,

有了 D4RT,机器视觉从“东拼西凑”走向“整体建模”。过去,要让 AI 从普通 2D 视频还原出立体、动态的真实世界,往往得堆好多模型:一个估深度、一个追动作、一个算相机位姿……不仅臃肿,还让认知割裂。D4RT 采用优雅的“查询式”架构,把复杂任务化成一个核心问题:“在某一时刻、从某个镜头看到的某个像素,究竟在三维空间的哪个位置?”

这种“按需查询”的思路,让 D4RT 展现出惊人的效率。测试显示,它比以往的主流方法快 18 到 300 倍。一段 1 分钟视频,以前即便用顶级算力也得算上十来分钟,而 D4RT 只需约 5 秒就能完成。这意味着,AI 第一次真正有望在真实环境中实时构建四维地图。

除了速度的巨大提升,D4RT 在理解画面的深度上也迈出关键一步:
-
全时空像素跟踪:即便物体短暂出镜或被遮住,D4RT 也能依靠内部世界模型,推断它在三维时空中的连续轨迹。
-
即时整体重建:就像按下“时间暂停键”,可直接生成精确的场景 3D 结构,无需反复迭代优化。
-
自适应相机轨迹恢复:通过自动对齐不同视角的帧,精准复原相机本身的运动路径。
从机器人灵活避障,到低延迟的 AR 眼镜贴合,再到具备物理直觉的通用 AI,D4RT 勾勒出一个 AI 能“真切感知”世界的图景。这已不只是算法升级,而是让数字智能真正看懂我们所处这个流动、四维的现实。

想更深入了解 D4RT 在机器人导航或 AR 领域如何落地?我可以为你展示更多
详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?