一直以来,虽然相机让机器“看得见”,但要让它们像人类一样理解这个不断变化的世界——不仅看眼前,还能回溯过去、预测下一刻——始终是计算机视觉领域的最大挑战。就在今天,

D4RT 的问世,意味着机器视觉从“东拼西凑”走向“统一建模”的重大飞跃。过去,想从一段二维视频还原出立体而动态的场景,往往要叠加一堆模型:有的估深度,有的跟动作,有的算相机位姿。这样不仅臃肿慢,还让理解割裂。而 D4RT 采用一种简洁的“查询式”框架,把繁杂任务归结到一个关键提问:“视频里某个像素,在某一时刻、从某个视角看过去,究竟落在三维空间的哪里?”

这种“按需查询”的思路,让 D4RT 展现出惊人效率。测试显示,它比此前的标杆方法提速 18~300 倍。一段 1 分钟的视频,过去即便用顶尖算力也要耗时 10 分钟,如今 D4RT 只需约 5 秒即可完成。这意味着,AI首次真正具备了在真实环境中实时构建四维地图的可能。

不仅速度大幅领先,D4RT 在理解深度上也进一步突破:
-
跨时空像素跟踪:就算目标出框或被短暂遮挡,D4RT 仍能凭借强力的内部世界建模,推断其在 3D+时间中的运动路径。
-
瞬时整场重建:如同“定格时间”,可直接产出场景的精准 3D 结构,无需反复迭代求解。
-
自适应相机感知:通过自动对齐多视角快照,准确恢复相机本身的运动轨迹。
无论是机器人灵活避障,还是增强现实(AR)眼镜的低时延贴合,再到打造更懂物理常识的通用智能,D4RT 为我们展现了一个 AI 能“真实感知”的未来。这不只是算法升级,而是让数字智能真正读懂我们身处的这个流动的、四维的现实世界。

想更深入了解 D4RT 在机器人导航或 AR 场景的具体落地吗?我可以继续为你展示更多
详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?