DeepMind 推出 Gemma Scope 2：为 Gemma 3 提供端到端可解释性工具集-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌 DeepMind 的研究团队近日上线了 Gemma Scope 2，这是一套开放的可解释性工具，能在不同层级深入剖析 Gemma3 语言模型的信息处理与表现，覆盖从 2.7 亿到 270 亿参数的模型。

这套工具的核心目标，是为人工智能安全与对齐团队提供一条可操作的路径，把模型的外在行为追溯到具体的内部特征，而不只看输入和输出。当 Gemma3 出现“越狱”、幻觉或拍马屁等情况时，研究人员可以用 Gemma Scope 2 观察哪些内部特征被激活，以及这些激活在网络中的流动轨迹。

Gemma Scope 2 是一个全面、开放的稀疏自编码器及相关工具合集，专门在 Gemma3 系列的内部激活上进行训练。稀疏自编码器（SAE）类似一台显微镜，把高维激活拆解成一组稀疏、可被人类审视的特征，这些特征对应具体概念或行为。为完成训练，团队需要存储约 110PB 的激活数据，并在所有可解释性模型上适配总计超过 1 万亿参数。

相较于前代 Gemma Scope，Gemma Scope 2 在四个方面做了拓展。首先，它覆盖整个 Gemma3 系列，支持最大270 亿参数的模型，方便研究大模型中的突现行为。其次，Scope 2 在 Gemma3 的每一层都训练了稀疏自编码器与转码器，便于跟踪跨层的多步计算。此外，引入了新的“Matryoshka（套娃）”训练方法，让稀疏自编码器学到更稳定、实用的特征，减少早期版本的不足。最后，套件面向聊天版 Gemma3 提供了专用可解释性工具，可分析越狱、拒绝策略和思维链可信度等多步骤行为。

项目介绍：https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/