Google DeepMind 宣布发布 Gemma Scope 2
2025 年 12 月 19 日,Google DeepMind 宣布发布 Gemma Scope 2。这是一套针对 Gemma 3 全系列模型(270M 至 27B 参数)的开源可解释性工具库,旨在帮助研究社区深度理解复杂语言模型的内部逻辑。该项目是迄今为止规模最大的开源可解释性工具集,涉及约 110 PB 的数据存储及超过 1 万亿参数的训练量。通过结合稀疏自动编码器(SAEs)和转码器,研究者可以观测模型内部的“思想”形成过程,并追踪越狱、幻觉及思维链忠实度等安全风险。
目前,该项目已在 Neuronpedia 提供交互演示,并开源了模型权重、技术报告及教程。DeepMind 表示,该工具将通过提供模型内部运作的“显微镜”,加速开发针对性的安全干预措施,帮助解决大模型规模下出现的复杂行为调试难题。
Google deepmind
2025 年 12 月 19 日,Google DeepMind 宣布发布 Gemma Scope 2。这是一套针对 Gemma 3 全系列模型(270M 至 27B 参数)的开源可解释性工具库,旨在帮助研究社区深度理解复杂语言模型的内部逻辑。该项目是迄今为止规模最大的开源可解释性工具集,涉及约 110 PB 的数据存储及超过 1 万亿参数的训练量。通过结合稀疏自动编码器(SAEs)和转码器,研究者可以观测模型内部的“思想”形成过程,并追踪越狱、幻觉及思维链忠实度等安全风险。
目前,该项目已在 Neuronpedia 提供交互演示,并开源了模型权重、技术报告及教程。DeepMind 表示,该工具将通过提供模型内部运作的“显微镜”,加速开发针对性的安全干预措施,帮助解决大模型规模下出现的复杂行为调试难题。
Google deepmind