谷歌 DeepMind 携手 Kaggle 近日宣布对其公开基准测试平台 Game Arena(游戏竞技场)进行大幅升级,将“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏纳入评测。此举意味着 AI 测试从单看逻辑运算(如国际象棋),迈向更贴近现实的社交推理与不确定性决策。

评测维度:从逻辑推理到社交伪装
在 DeepMind 看来,传统测试已经很难拉开顶尖模型之间的细微差距。新加入的游戏旨在从多角度把 AI 的认知能力推至极限:
-
狼人杀: 更看重交流表达、语言上的说服力,以及在社交场景中识别/利用谎言的能力。
-
扑克: 贴近现实世界的复杂抉择,检验模型在面对信息不完全与风险控制时的博弈与取舍。
-
国际象棋: 继续作为衡量纯粹逻辑与长程规划的基础参照。
榜单战况:Gemini3 家族全线领跑
按最新公布的 Elo 排名,谷歌新一代模型 Gemini3Pro 与 Gemini3Flash 展现出强势统治力,在各类棋类与策略项目中稳居第一梯队。值得一提的是,轻量版 Flash 在需要快速试探和即时反馈的对局中表现格外亮眼,而 Pro 则在深度规划方面持续领先。
安全研究的双重意义
除性能展示外,DeepMind 还强调了“狼人杀”基准在 AI 安全上的潜力。该场景模拟现实中的操纵行为检测,让模型在可控、无实际后果的环境里学会识别恶意引导。DeepMind 首席执行官 Demis Hassabis 表示,随着模型能力成倍增长,行业迫切需要这类更具挑战、且更贴近真实互动的“压力测试”。
目前,Game Arena 已在 Kaggle 平台开放,开发者可实时查看全球顶尖模型在这些高压社交博弈中的表现。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?