DeepMind 搭建 AI“线下桌游局”:Gemini3 家族霸榜狼人杀与扑克

谷歌 DeepMind 携手 Kaggle 近日宣布对其公开基准测试平台 Game Arena(游戏竞技场)进行大幅升级,将“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏纳入评测。此举意味着 AI 测试从单看逻辑运算(如国际象棋),迈向更贴近现实的社交推理与不确定性决策。

QQ20260204-095537.png

评测维度:从逻辑推理到社交伪装

在 DeepMind 看来,传统测试已经很难拉开顶尖模型之间的细微差距。新加入的游戏旨在从多角度把 AI 的认知能力推至极限:

  • 狼人杀: 更看重交流表达、语言上的说服力,以及在社交场景中识别/利用谎言的能力。

  • 扑克: 贴近现实世界的复杂抉择,检验模型在面对信息不完全与风险控制时的博弈与取舍。

  • 国际象棋: 继续作为衡量纯粹逻辑与长程规划的基础参照。

榜单战况:Gemini3 家族全线领跑

最新公布的 Elo 排名,谷歌新一代模型 Gemini3ProGemini3Flash 展现出强势统治力,在各类棋类与策略项目中稳居第一梯队。值得一提的是,轻量版 Flash 在需要快速试探和即时反馈的对局中表现格外亮眼,而 Pro 则在深度规划方面持续领先。

安全研究的双重意义

除性能展示外,DeepMind 还强调了“狼人杀”基准在 AI 安全上的潜力。该场景模拟现实中的操纵行为检测,让模型在可控、无实际后果的环境里学会识别恶意引导。DeepMind 首席执行官 Demis Hassabis 表示,随着模型能力成倍增长,行业迫切需要这类更具挑战、且更贴近真实互动的“压力测试”。

目前,Game Arena 已在 Kaggle 平台开放,开发者可实时查看全球顶尖模型在这些高压社交博弈中的表现。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享