大模型怎样工作？Transformer回路基础丨周四直播·大模型可解释性读书会

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从不同视角梳理大语言模型可解释性的科学方法论。

本期是「大模型可解释性」读书会的第一次分享，也是自下而上视角理解大模型机制可解释性的概览和入门引导，绝对不能错过！

分享简介

Transformer已成为大模型的事实标准架构。它的能力边界在哪里？为什么会出错/幻觉？能否/怎样改进？了解Transformer的内部工作机理对这些问题都有基础性意义。本次分享将介绍由注意力头和前馈网络组成的Transformer circuits（回路）的基本概念，通过探寻induction head、indirect object identification (IOI)、事实知识回忆等经典例子的回路理解Transformer完成这些的任务的机制，并介绍回路发现的常用方法的原理。可作为回路研究这个大模型机制可解释性子领域的概览和入门引导。

分享大纲

机制可解释性的两种研究方法

静态分析（权重）
动态分析（回路）

Transformre和回路基础

残差流和线性结构
注意力头和前馈网络的作用
注意力头的组合
Hello World回路：induction head

典型回路举例

indirect object identification (IOI)
事实知识回忆
上下文学习

回路发现

基于patch的方法（activation patching、path patching）
自动化方法（ACDC）
基于梯度的方法（EAP、EAP-IG）

核心概念

Transformer circuit

这个大家都听说过，但是可能又不是特别理解，期待肖达老师的讲解：它的数学框架是什么，为什么有效？

induction head（感应头）

感应头是 Transformer 最基本的情境学习形式。它指的是 Transformer 如何在第二次识别已经见到过的模式，例如观察到"AB" 子序列时学习到模式（ "B" 跟随 "A" ），这可能意味着当模型第二次看到 "Barack" 时，即使它没有使用包含此名称的数据进行训练，也能预测 "Obama" 跟随 "Barack"。

activation patching（激活补丁）

激活补丁（又名因果中介分析、互换干预、因果追踪、重采样消融 ...）是一种核心机械可解释性技术。关键思想是，对于给定的模型行为，只有一组稀疏的组件（头部和神经元）可能是相关的。希望通过因果干预来定位这些组成部分。但是，只要有任何提示，就会涉及到许多模型行为。

Indirect object identification （IOI）

IOI 电路是在 GPT2-small 中发现的，相当庞大且复杂。是指模型内部是否“理解”了谁是接收者。例如，给定句子 "John and Mary went to the shops, John gave a bag to Mary" ，IOI 任务会预测单词 "Mary" 紧跟在单词 "to" 之后。

Edge attribution patching（EAP）

EAP with integrated gradients (EAP-IG)

EAP和EAP-IG通过集成梯度来更好地维护电路的忠实度，从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题找到能够最小化计算子图的电路，以解释模型在特定任务上的行为？

Automated circuit discovery（自动回路发现，ACDC）

参考文献

经典的思考Transformer基础思想的文章，文章可以分成两个部分，一个部分是如何用数学框架去推理Transformer，比如其代数表达，分解方式，以及一些需要了解的概念性内容；另一部分是在真实语言数据上训练tiny版的transformer，并去解释，验证上部分的内容。本期讲座主讲人会重点讲解，并期待和大家充分讨论的一篇Anthropic发布的研究文献。

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

这篇博客建立了一个Transformer的隐喻：一群人排成一队，每人（残差流中的向量）手里拿着一个单词 ([2]) 。每个人都知道自己的单词和在队伍中的位置，但他们看不到队伍中的其他人。每个人的目标是猜出前面的人拿着的单词。人们可以向队伍中站在他们后面的每个人大声提问（前面的人听不到）（注意力头）。听到问题后，每个人都可以选择是否回答，以及将哪些信息传达给提问者(MLP)。此后，人们不会记住他们被问到的问题（因此信息不能在队伍中后退，只能前进）。当队伍中的个人从这些交流中收集信息时，他们可以使用这些信息来组织后续问题并提供答案。

Callum McDougall. An Analogy for Understanding Transformers — EA Forum

IOI 电路是在 GPT2-small 中发现的，相当庞大且复杂。在大模型（如GPT）的机制分析中，“indirect object identification” 可能指模型内部是否“理解”了谁是接收者。

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

这是一篇关于大语言模型的提取过程的文献，提出一种三阶段提取方法。

阶段1：发生在Transformer底层，实体的最关键的词汇会不断集成信息，触发更多相关属性词汇。
阶段2：发生在Transformer底层，上下文的重要信息通过Attention集成到提示词最后一个位置。
阶段3：发生在Transformer高层，最后一个位置在高层通过Attention Heads把编码的知识提取出来（Attention Head里会编码<实体-属性>信息）。

Geva, Mor, et al. "Dissecting recall of factual associations in auto-regressive language models." arXiv preprint arXiv:2304.14767 (2023).

本文提出了自动回路发现的算法ACDC，递归地构建一个子图，该子图通过将模型激活修补到与特定任务相关的数据点上来识别。作者证明，ACDC 能够基本忠实地恢复先前研究人员在各种任务（尤其是 Python 文档字符串、IOI 和Induction head）中手动识别的电路。

Conmy, Arthur, et al. "Towards automated circuit discovery for mechanistic interpretability." Advances in Neural Information Processing Systems 36 (2023): 16318-16352.

这篇文献提出了一种新的方法——EAP-IG，它通过集成梯度来更好地维护电路的忠实度，从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题：如何找到能够最小化计算子图的电路，以解释模型在特定任务上的行为？

Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).

主讲人简介

肖达，人工智能公司彩云科技联合创始人、首席科学家、北京邮电大学网络空间安全学院副教授。

研究方向：主要负责深度神经网络模型和算法的研发用于彩云天气、彩云小译、彩云小梦等产品。

参与方式

参与时间

2025年6月19日（周四）晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/919?from=wechat

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会计划于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享10周左右。

详情请见：破解AI黑箱的四重视角：大模型可解释性读书会启动

展开阅读全文

更新时间：2025-12-19

标签：科技模型解释性读书会回路基础工作电路彩云黑箱方法语言忠实

1 2 3 4 5

大模型怎样工作？Transformer回路基础丨周四直播·大模型可解释性读书会

分享简介

分享大纲

核心概念

参考文献

主讲人简介

参与方式

参与时间

报名加入社群交流

助力上海建设“国际数字之都”，上海移动开启5G－A 2．0新时代

航天员费俊龙：每次飞行通过悬舱回望地球，都给我以深深的震撼

日产油8吨、气3万立方米大庆油田营页1H井页岩油试采“逆袭”

Aduna与软银通过GSMA开放网关扩展网络API访问权限

首个人形机器人全产业链专业展召开在即，机器人ETF易方达（159530）等产品助力布局产业链龙头

突发！西渝高铁一在建隧道一氧化碳泄漏致7人被困，已有4人获救

百度高说服力数字人再升级基于文心大模型实现体验、内容、视觉、效果四大突破

新品上市即爆发，天猫618超6900款首发新品成交破百万

市政协机关工会开展AI新技能“海风讲堂”

四川省地质工程勘察院集团等取得可调角度式锚具专利

中俄在安理会谴责以色列打伊朗，以色列不听，反指联合国无能

筹划赴港上市股价继续大涨，拉卡拉：不存在未披露的重大事项

6月17日龙虎榜，机构青睐这16股

西部矿业股价微涨0.30% 主力资金单日流入1786万元

辟谣！深圳地铁11号线发生爆炸？假的！

百度高说服力数字人再升级基于文心大模型实现体验、

平湖空间感知实验室科技有限公司取得基于多模型融合的

宝馨科技：收到单方面终止交易告知函

科技大讲堂走进旗区——鄂尔多斯市航空航天和低空经济

梦舟载人飞船零高度逃逸飞行试验取得圆满成功我国载

美股三大指数集体低开脑再生科技高开25%

蓝思科技：发行H股股票并在香港联交所上市获得中国证监

航空航天领域科技攻关需求综合解决方案开始征集

先进装备、清洁能源、先进材料等领域科技攻关需求综合

梦舟载人飞船零高度逃逸飞行试验取得圆满成功我国载