DeepMind 推出 Gemma Scope 2:为 Gemma 3 提供端到端可解释性工具集

谷歌 DeepMind 的研究团队近日上线了 Gemma Scope 2,这是一套开放的可解释性工具,能在不同层级深入剖析 Gemma3 语言模型的信息处理与表现,覆盖从 2.7 亿到 270 亿参数的模型。

image.png

这套工具的核心目标,是为人工智能安全与对齐团队提供一条可操作的路径,把模型的外在行为追溯到具体的内部特征,而不只看输入和输出。当 Gemma3 出现“越狱”、幻觉或拍马屁等情况时,研究人员可以用 Gemma Scope 2 观察哪些内部特征被激活,以及这些激活在网络中的流动轨迹。

Gemma Scope 2 是一个全面、开放的稀疏自编码器及相关工具合集,专门在 Gemma3 系列的内部激活上进行训练。稀疏自编码器(SAE)类似一台显微镜,把高维激活拆解成一组稀疏、可被人类审视的特征,这些特征对应具体概念或行为。为完成训练,团队需要存储约 110PB 的激活数据,并在所有可解释性模型上适配总计超过 1 万亿参数。

相较于前代 Gemma Scope,Gemma Scope 2 在四个方面做了拓展。首先,它覆盖整个 Gemma3 系列,支持最大270 亿参数的模型,方便研究大模型中的突现行为。其次,Scope 2 在 Gemma3 的每一层都训练了稀疏自编码器与转码器,便于跟踪跨层的多步计算。此外,引入了新的“Matryoshka(套娃)”训练方法,让稀疏自编码器学到更稳定、实用的特征,减少早期版本的不足。最后,套件面向聊天版 Gemma3 提供了专用可解释性工具,可分析越狱、拒绝策略和思维链可信度等多步骤行为。

项目介绍:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

划重点:  

🔍 Gemma Scope 2 是开放的可解释性工具集,支持 2.7 亿至 270 亿参数的 Gemma3 模型。  

🛠️ 新版本包含稀疏自编码器与转码器,帮助剖析模型的内部特征与行为。  

🔒 工具特别适用于 AI 安全领域,可深入研究幻觉、越狱和其他安全相关行为。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享