谷歌 DeepMind 的研究团队近日上线了 Gemma Scope 2,这是一套开放的可解释性工具,能在不同层级深入剖析 Gemma3 语言模型的信息处理与表现,覆盖从 2.7 亿到 270 亿参数的模型。

这套工具的核心目标,是为人工智能安全与对齐团队提供一条可操作的路径,把模型的外在行为追溯到具体的内部特征,而不只看输入和输出。当 Gemma3 出现“越狱”、幻觉或拍马屁等情况时,研究人员可以用 Gemma Scope 2 观察哪些内部特征被激活,以及这些激活在网络中的流动轨迹。
Gemma Scope 2 是一个全面、开放的稀疏自编码器及相关工具合集,专门在 Gemma3 系列的内部激活上进行训练。稀疏自编码器(SAE)类似一台显微镜,把高维激活拆解成一组稀疏、可被人类审视的特征,这些特征对应具体概念或行为。为完成训练,团队需要存储约 110PB 的激活数据,并在所有可解释性模型上适配总计超过 1 万亿参数。
相较于前代 Gemma Scope,Gemma Scope 2 在四个方面做了拓展。首先,它覆盖整个 Gemma3 系列,支持最大270 亿参数的模型,方便研究大模型中的突现行为。其次,Scope 2 在 Gemma3 的每一层都训练了稀疏自编码器与转码器,便于跟踪跨层的多步计算。此外,引入了新的“Matryoshka(套娃)”训练方法,让稀疏自编码器学到更稳定、实用的特征,减少早期版本的不足。最后,套件面向聊天版 Gemma3 提供了专用可解释性工具,可分析越狱、拒绝策略和思维链可信度等多步骤行为。
项目介绍:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
划重点:
🔍 Gemma Scope 2 是开放的可解释性工具集,支持 2.7 亿至 270 亿参数的 Gemma3 模型。
🛠️ 新版本包含稀疏自编码器与转码器,帮助剖析模型的内部特征与行为。
🔒 工具特别适用于 AI 安全领域,可深入研究幻觉、越狱和其他安全相关行为。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?