AI Agent· 第二讲 LLM大模型内部运作原理 - Ting BLOG🐈

Ting included in 课程李宏毅2026

2026-06-25 About 100 words One minute

Contents

一个神经元

神经元的结构

绿色进去是embeding
黄色出来是unembeding

每一个蓝色向量由红色向量的值weight sum得到。每一个蓝色的球就是一个神经元的输出。红色变为蓝色正过程就是一个神经元。
中间绿色部分是 ReLU（一种常用的activation function）：小于零的变为零，大于零的不变

检验神经元有什么功能

如果一个神经元的启动影响了输出结果，意味着神经元和这个行为有关联，但不是导致的关系
移除该神经元，导致不产生这个结果，神经元和结果有较大关联
不同程度的启动导致不同程度的结果
但是一般是神经元协同合作、一个神经元管多个事情。大多数神经元不能完全确定其具体的功能

一层神经元

抽取一组和某功能相关的向量

以拒绝请求相关的神经元为例

找到拒绝向量组

验证拒绝向量（+ 或 - 这个向量的方法每个文章不一定一样）
- 把这个向量加入类神经网络，如果输出结果从非预期变预期，那么就是拒绝向量
- 把这个向量减去（有不同方法）
一些论文中的功能向量
- Sycophancy Vector：谄媚向量
- Truthful Vector：说真话向量
- In-Context Vector：模型靠阅读输入的示例，临时学会任务规则
怎么找一组功能向量

可以训练一个SAE(Sparse Auto Encoder)来解方程：（其中lamda需要自己设置，属于参数）

整体流程如下：

一群神经元

模型的模型：用一个较为简单的东西代表另一个东西。但那时保有原来的实物特征。

系统化xx模型的模型的方法

puring：不断拿掉一些不影响主要的模型功能的神经元，到不能再拿掉任何一个神经元的过程

circuit：语言模型的模型

和Network Compression的区别：目标不一样。得到circuit的目的是最简化的神经元能有某个特定功能（只关心局部功能），Compression是为了尽可能保留完整的模型功能（看到全部的的功能）

语言模型直接说出想法

语言模型的思维是透明的：人可以看到每一层的想法

利用Logit lens分析模型的内心
利用Patchscopes

residual connection

Residual Stream中加入的资讯：

为博主买一杯java

Ting WeChat Pay

WeChat Pay