大模型怎样工作?Transformer回路基础丨周四直播·大模型可解释性读书会


导语


集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。

本期是「大模型可解释性」读书会的第一次分享,也是自下而上视角理解大模型机制可解释性的概览和入门引导,绝对不能错过!





分享简介



Transformer已成为大模型的事实标准架构。它的能力边界在哪里?为什么会出错/幻觉?能否/怎样改进?了解Transformer的内部工作机理对这些问题都有基础性意义。本次分享将介绍由注意力头和前馈网络组成的Transformer circuits(回路)的基本概念,通过探寻induction head、indirect object identification (IOI)、事实知识回忆等经典例子的回路理解Transformer完成这些的任务的机制,并介绍回路发现的常用方法的原理。可作为回路研究这个大模型机制可解释性子领域的概览和入门引导。





分享大纲



机制可解释性的两种研究方法

Transformre和回路基础

典型回路举例

回路发现





核心概念




Transformer circuit

这个大家都听说过,但是可能又不是特别理解,期待肖达老师的讲解:它的数学框架是什么,为什么有效?

induction head(感应头)

感应头是 Transformer 最基本的情境学习形式。它指的是 Transformer 如何在第二次识别已经见到过的模式,例如观察到"AB" 子序列时学习到模式( "B" 跟随 "A" ),这可能意味着当模型第二次看到 "Barack" 时,即使它没有使用包含此名称的数据进行训练,也能预测 "Obama" 跟随 "Barack"

activation patching(激活补丁)

激活补丁(又名因果中介分析、互换干预、因果追踪、重采样消融 ...)是一种核心机械可解释性技术。关键思想是,对于给定的模型行为,只有一组稀疏的组件(头部和神经元)可能是相关的。希望通过因果干预来定位这些组成部分。但是,只要有任何提示,就会涉及到许多模型行为。

Indirect object identification (IOI)

IOI 电路是在 GPT2-small 中发现的,相当庞大且复杂。是指模型内部是否“理解”了谁是接收者。例如,给定句子 "John and Mary went to the shops, John gave a bag to Mary" ,IOI 任务会预测单词 "Mary" 紧跟在单词 "to" 之后。

Edge attribution patching(EAP)

EAP with integrated gradients (EAP-IG)

EAP和EAP-IG通过集成梯度来更好地维护电路的忠实度,从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题找到能够最小化计算子图的电路,以解释模型在特定任务上的行为?

Automated circuit discovery(自动回路发现,ACDC)





参考文献




经典的思考Transformer基础思想的文章,文章可以分成两个部分,一个部分是如何用数学框架去推理Transformer,比如其代数表达,分解方式,以及一些需要了解的概念性内容;另一部分是在真实语言数据上训练tiny版的transformer,并去解释,验证上部分的内容。本期讲座主讲人会重点讲解,并期待和大家充分讨论的一篇Anthropic发布的研究文献。

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

这篇博客建立了一个Transformer的隐喻:一群人排成一队,每人(残差流中的向量)手里拿着一个单词 ([2]) 。每个人都知道自己的单词和在队伍中的位置,但他们看不到队伍中的其他人。每个人的目标是猜出前面的人拿着的单词。人们可以向队伍中站在他们后面的每个人大声提问(前面的人听不到)(注意力头)。听到问题后,每个人都可以选择是否回答,以及将哪些信息传达给提问者(MLP)。此后,人们不会记住他们被问到的问题(因此信息不能在队伍中后退,只能前进)。当队伍中的个人从这些交流中收集信息时,他们可以使用这些信息来组织后续问题并提供答案。

Callum McDougall. An Analogy for Understanding Transformers — EA Forum

IOI 电路是在 GPT2-small 中发现的,相当庞大且复杂。在大模型(如GPT)的机制分析中,“indirect object identification” 可能指模型内部是否“理解”了谁是接收者。

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

这是一篇关于大语言模型的提取过程的文献,提出一种三阶段提取方法。

Geva, Mor, et al. "Dissecting recall of factual associations in auto-regressive language models." arXiv preprint arXiv:2304.14767 (2023).

本文提出了自动回路发现的算法ACDC,递归地构建一个子图,该子图通过将模型激活修补到与特定任务相关的数据点上来识别。作者证明,ACDC 能够基本忠实地恢复先前研究人员在各种任务(尤其是 Python 文档字符串、IOI 和Induction head)中手动识别的电路。

Conmy, Arthur, et al. "Towards automated circuit discovery for mechanistic interpretability." Advances in Neural Information Processing Systems 36 (2023): 16318-16352.

这篇文献提出了一种新的方法——EAP-IG,它通过集成梯度来更好地维护电路的忠实度,从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题:如何找到能够最小化计算子图的电路,以解释模型在特定任务上的行为?

Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).





主讲人简介



肖达,人工智能公司彩云科技联合创始人、首席科学家、北京邮电大学网络空间安全学院副教授。

研究方向:主要负责深度神经网络模型和算法的研发用于彩云天气、彩云小译、彩云小梦等产品。





参与方式



参与时间

2025年6月19日(周四)晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/919?from=wechat




大模型可解释性读书会


集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?
系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会计划于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享10周左右。



详情请见:破解AI黑箱的四重视角:大模型可解释性读书会启动

展开阅读全文

更新时间:2025-06-18

标签:科技   模型   解释性   读书会   回路   基础   工作   电路   彩云   黑箱   方法   语言   忠实

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top