大模型基础(二):必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》
在上一篇文章里,我们搞懂了什么是大语言模型(LLM)、狭义大模型与广义大模型的区别,以及大模型能做什么、不能做什么。
但只要你开始深入使用、部署、学习大模型,就会频繁遇到这些词:
Token、上下文长度、Embedding、预训练、微调。
它们是大模型的“底层语言”,不懂这5个概念,就很难真正理解大模型。
这篇文章不讲复杂公式、不堆专业术语,用大白话+生活例子,带你彻底吃透。
一、Token:大模型眼里的“文字单位”
1. 什么是Token?
Token(词元)是大模型处理文本的最小单位。
模型不直接认识汉字、英文单词,它只认识Token。
可以简单理解为:
- 汉字 ≈ 1个Token
- 英文单词 ≈ 1个Token
- 数字、符号、标点 ≈ 1个Token
2. 官方换算规则
- 1个中文字符 ≈0.6个Token(近似1个)
- 1个英文字符 ≈0.3个Token
- 日常使用可以直接记:1个汉字 ≈ 1个Token
3. 为什么要懂Token?
- 计费:API按Token收费(输入+输出)
- 限制:模型一次能处理的文字上限由Token决定
- 效率:文本越长,Token越多,推理越慢
举个例子:
“人工智能正在改变世界”
分词后:人工、智能、正在、改变、世界 →5个Token
一句话总结:
Token就是大模型的“文字货币”,一切计算、长度、费用都按它算。
二、上下文窗口(Context Window):模型一次能“记住”多少内容
1. 什么是上下文窗口?
上下文窗口 = 模型单次推理能处理的最大Token总数。
它包含两部分:
- 你输入的内容(问题、文档、对话历史)
- 模型输出的回答
两者加起来不能超过上限。
2. 常见上下文长度
- 小模型:2K、4K、8K
- 通用模型:32K、64K
- 长文本模型:128K、256K、1M以上
64K Token ≈4.8万字
128K Token ≈9.6万字
3. 上下文窗口决定什么?
- 能不能读完整篇长文档
- 能不能记住多轮对话
- 能不能处理长代码、长报告
- 能不能做复杂的总结与分析
比如:
你让模型读一份10万字的报告,如果模型只有64K窗口,就读不完,必须分段处理。
一句话总结:
上下文窗口越大,模型“一次性看懂”的内容越多,处理长文本越强。