谷歌 DeepMind 近日上线了 SIMA2,专门用来检验通用智能体在复杂 3D 游戏世界中的表现。SIMA2(可扩展、可指令的多世界智能体)在前代基础上全面升级,结合 Gemini 系列模型,能更好地理解任务目标、制定并解释计划,并通过自我学习在不同环境持续提升。

SIMA2 的前身 SIMA1 于 2024 年发布,当时通过渲染画面与虚拟键鼠进行操控,已掌握 600 多条语言指令,任务成功率约为 31%,而人类玩家约为 71%。SIMA2 在沿用同样接口的基础上,将核心推理引擎升级为 Gemini 2.5 Flash Lite,使其不再只是“执行指令”,更能成为可与玩家互动的游戏伙伴。

在架构上,SIMA2 将 Gemini 置于核心:接收视觉观察与用户指令,抽取高层目标并生成相应操作。新的训练方式让智能体可以解释自身意图、回答关于当前目标的问题,并展示其对环境的推理过程。DeepMind 的评估显示,SIMA2 的任务完成率提升到 62%,已逼近人类玩家水平。
SIMA2 的指令通道也更丰富:不仅能理解文本,还能处理语音、图形甚至表情符号。在一次演示中,用户让 SIMA2 找到“像熟透的番茄一样颜色的房子”,它会先推断“熟透的番茄是红色”,随后准确找到目标。
自我改进同样是 SIMA2 的一大亮点。早期阶段使用人类游戏演示作为起点,进入新游戏后则依靠自身经验继续学习。Gemini 模型为智能体自动生成新任务并评分,使得后续版本能在许多此前失败的任务上实现突破,而无需额外的人类示范。
最后,DeepMind 将 SIMA2 与 Genie3 结合,只需一张图或文本提示即可生成可互动的 3D 环境,展示智能体在全新场景中识别物体并完成指定任务的能力。这被视为通用智能体迈向更高级现实世界机器人的关键一步。
官方博客:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
划重点:
🌟 SIMA2 内置 Gemini 2.5 Flash Lite,让智能体的推理与规划能力更强。
📈 任务完成率提升至 62%,接近人类玩家,性能进步明显。
🛠️ 依托自我改进机制与 Genie3 的环境生成,SIMA2 在新场景中的适应力与通用性得到验证。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?