LLM | 学习笔记一

2026/6/30 2:24:43

🧠 一、基本概念
⭐LLM：
LLM是一个基于Transformer的自回归概率生成模型，通过学习token序列分布，在上下文条件下逐token生成文本。

⭐Transformer：
Transformer是一种基于Self-Attention机制的并行序列建模结构，用于捕捉全局依赖关系。

⭐Attention本质：
Attention是一种基于Q-K相似度计算权重，并对V进行加权求和的信息融合机制。

🧩 二、LLM的工作流程
1️⃣ Tokenization（文本切分）
输入文本会被拆分为token：“我喜欢AI” → [“我”, “喜欢”, “AI”]
Token是模型处理文本的最小单位（不等于词）

2️⃣ Embedding（向量化）
每个token会被映射为向量表示：
token → vector（语义空间坐标）

3️⃣ Positional Encoding（位置信息）
由于Transformer没有顺序概念，因此需要加入位置信息，让模型知道token顺序

4️⃣ Transformer处理（核心）
输入向量进入多层Transformer结构进行信息交互与更新。

🧠 三、Transformer核心结构
🔥 1. Self-Attention机制
Self-Attention的作用是：让每个token与序列中所有token建立关系，并动态计算重要性权重。

🧩 2. Q/K/V机制
每个token通过训练得到的线性变换矩阵（projection matrices）得到：

Q = XWq K = XWk V = XWv

含义：

Attention = 用Q去匹配K，并从V中提取信息

🔁 4. 多层Transformer
每一层都会：
更新token表示，融合上下文信息

🧠 四、自回归生成机制
LLM属于自回归模型（Autoregressive Model）：当前token的生成只依赖于之前的token

📌 生成过程：
我今天很 → 开心
我今天很开心 → 因为
我今天很开心因为 → …
🧠 本质：
LLM通过不断预测下一个token的概率分布，逐步生成完整文本

🧠 五、Transformer vs RNN（补充理解）

🧠 核心区别：
RNN依赖“记忆传递”，Transformer依赖“全局注意力”

最新新闻