LLM | 学习笔记一

🧠 一、基本概念
⭐LLM:
LLM是一个基于Transformer的自回归概率生成模型,通过学习token序列分布,在上下文条件下逐token生成文本。

⭐Transformer:
Transformer是一种基于Self-Attention机制的并行序列建模结构,用于捕捉全局依赖关系。

⭐Attention本质:
Attention是一种基于Q-K相似度计算权重,并对V进行加权求和的信息融合机制。

🧩 二、LLM的工作流程
1️⃣ Tokenization(文本切分)
输入文本会被拆分为token:“我喜欢AI” → [“我”, “喜欢”, “AI”]
Token是模型处理文本的最小单位(不等于词)

2️⃣ Embedding(向量化)
每个token会被映射为向量表示:
token → vector(语义空间坐标)

3️⃣ Positional Encoding(位置信息)
由于Transformer没有顺序概念,因此需要加入位置信息,让模型知道token顺序

4️⃣ Transformer处理(核心)
输入向量进入多层Transformer结构进行信息交互与更新。

🧠 三、Transformer核心结构
🔥 1. Self-Attention机制
Self-Attention的作用是:让每个token与序列中所有token建立关系,并动态计算重要性权重。

🧩 2. Q/K/V机制
每个token通过训练得到的线性变换矩阵(projection matrices)得到:

Q = XWq K = XWk V = XWv

含义:

向量作用
Q当前token想找什么信息
K其他token的特征表示
V其他token的真实内容

Attention = 用Q去匹配K,并从V中提取信息

🔁 4. 多层Transformer
每一层都会:
更新token表示,融合上下文信息

🧠 四、自回归生成机制
LLM属于自回归模型(Autoregressive Model):当前token的生成只依赖于之前的token

📌 生成过程:
我 今天 很 → 开心
我 今天 很 开心 → 因为
我 今天 很 开心 因为 → …
🧠 本质:
LLM通过不断预测下一个token的概率分布,逐步生成完整文本

🧠 五、Transformer vs RNN(补充理解)

维度RNNTransformer
计算方式顺序并行
信息建模hidden stateattention
长距离依赖
训练效率

🧠 核心区别:
RNN依赖“记忆传递”,Transformer依赖“全局注意力”