硅基智慧的“广角思维”：Google DeepMind 发布 D4RT，让 AI 拥有跨越时空的四维视野-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

多年来，相机让机器“看得到”，可要让它们像人类那样读懂这个不断变化的世界——既看眼前，也能回溯之前、预判之后——始终是计算机视觉的终极挑战。今天，Google DeepMind公布了一项里程碑研究：D4RT （Dynamic4D Reconstruction and Tracking）。这个统一的 AI 模型把三维空间与时间这第四维紧密融合，正式把机器视觉带入“四维全感知”的新阶段。

有了 D4RT，机器视觉从“东拼西凑”走向“整体建模”。过去，要让 AI 从普通 2D 视频还原出立体、动态的真实世界，往往得堆好多模型：一个估深度、一个追动作、一个算相机位姿……不仅臃肿，还让认知割裂。D4RT 采用优雅的“查询式”架构，把复杂任务化成一个核心问题：“在某一时刻、从某个镜头看到的某个像素，究竟在三维空间的哪个位置？”

这种“按需查询”的思路，让 D4RT 展现出惊人的效率。测试显示，它比以往的主流方法快 18 到 300 倍。一段 1 分钟视频，以前即便用顶级算力也得算上十来分钟，而 D4RT 只需约 5 秒就能完成。这意味着，AI 第一次真正有望在真实环境中实时构建四维地图。

除了速度的巨大提升，D4RT 在理解画面的深度上也迈出关键一步：