硅基智慧的“广角思维”：Google DeepMind 发布 D4RT，让 AI 拥有跨越时空的四维视野-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

一直以来，虽然相机让机器“看得见”，但要让它们像人类一样理解这个不断变化的世界——不仅看眼前，还能回溯过去、预测下一刻——始终是计算机视觉领域的最大挑战。就在今天，Google DeepMind发布了一项里程碑式成果：D4RT（Dynamic4D Reconstruction and Tracking）。这个全新的统一模型，把三维空间与时间维度无缝结合，宣告 AI 视觉正式迈入“四维全景感知”的新阶段。

D4RT 的问世，意味着机器视觉从“东拼西凑”走向“统一建模”的重大飞跃。过去，想从一段二维视频还原出立体而动态的场景，往往要叠加一堆模型：有的估深度，有的跟动作，有的算相机位姿。这样不仅臃肿慢，还让理解割裂。而 D4RT 采用一种简洁的“查询式”框架，把繁杂任务归结到一个关键提问：“视频里某个像素，在某一时刻、从某个视角看过去，究竟落在三维空间的哪里？”

这种“按需查询”的思路，让 D4RT 展现出惊人效率。测试显示，它比此前的标杆方法提速 18～300 倍。一段 1 分钟的视频，过去即便用顶尖算力也要耗时 10 分钟，如今 D4RT 只需约 5 秒即可完成。这意味着，AI首次真正具备了在真实环境中实时构建四维地图的可能。

不仅速度大幅领先，D4RT 在理解深度上也进一步突破：