Google DeepMind 推出 Gemma Scope 2:为 Gemma 3 提供全链路可解释性套件

Google DeepMind 研究团队近日发布 Gemma Scope 2,这是一套开放的可解释性工具箱,旨在深入洞察 Gemma 3 语言模型在不同层级的信息处理与行为表现,覆盖从 2.7 亿到 270 亿参数的模型。

image.png

该套件的核心目标,是为 AI 安全与对齐团队提供一套可操作的方法,把模型的外在表现追溯到内部特征,而不只依赖输入与输出。当 Gemma 3 出现“越狱”、产生幻觉,或表现出过度迎合时,研究人员可以借助 Gemma Scope 2 查看哪些内部特征被激活,以及这些激活如何在网络中传导。

Gemma Scope 2 集成了大规模的稀疏自编码器(SAE)及配套工具,专门针对 Gemma 3 系列模型的内部激活进行训练。稀疏自编码器像一台“显微镜”,把高维激活拆分为少量、人类可理解的稀疏特征,这些特征往往对应具体概念或行为。为达到这一点,Gemma Scope 2 在训练中需存储约 110PB 的激活数据,且所有可解释性模型合计适配超过一万亿参数。

相较上一代,Gemma Scope 2 在四方面显著增强。首先,它覆盖了整个 Gemma 3 系列,支持最大至 270 亿参数的模型,特别适合研究更大规模模型中出现的突现现象。

其次,Gemma Scope 2 在 Gemma 3 的每一层都配备了训练好的稀疏自编码器与转码器,便于追踪跨层的多步计算路径。此外,借助全新的 “Matryoshka(套娃)” 训练方法,SAE 能学到更稳定、更加有用的特征,缓解早期版本中出现的一些问题。最后,套件还为对话式的 Gemma 3 模型提供了专用可解释性工具,可更细致地分析越狱、防拒机制、思维链可靠性等多步骤行为。

项目介绍:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

划重点:  

🔍 Gemma Scope 2 是开放的可解释性工具套件,覆盖 Gemma 3 系列,从 2.7 亿到 270 亿参数。  

🛠️ 新版本包含稀疏自编码器与转码器,可剖析模型的内部特征与行为路径。  

🔒 面向 AI 安全应用,能深入研究幻觉、越狱等关键安全相关行为。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享