大模型基础(二):必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

在上一篇文章里,我们搞懂了什么是大语言模型(LLM)、狭义大模型与广义大模型的区别,以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型,就会频繁遇到这些词:
Token、上下文长度、Embedding、预训练、微调
它们是大模型的“底层语言”,不懂这5个概念,就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语,用大白话+生活例子,带你彻底吃透。


一、Token:大模型眼里的“文字单位”

1. 什么是Token?

Token(词元)是大模型处理文本的最小单位
模型不直接认识汉字、英文单词,它只认识Token。

可以简单理解为:

  • 汉字 ≈ 1个Token
  • 英文单词 ≈ 1个Token
  • 数字、符号、标点 ≈ 1个Token

2. 官方换算规则

  • 1个中文字符 ≈0.6个Token(近似1个)
  • 1个英文字符 ≈0.3个Token
  • 日常使用可以直接记:1个汉字 ≈ 1个Token

3. 为什么要懂Token?

  • 计费:API按Token收费(输入+输出)
  • 限制:模型一次能处理的文字上限由Token决定
  • 效率:文本越长,Token越多,推理越慢

举个例子:
“人工智能正在改变世界”
分词后:人工、智能、正在、改变、世界 →5个Token

一句话总结:
Token就是大模型的“文字货币”,一切计算、长度、费用都按它算。


二、上下文窗口(Context Window):模型一次能“记住”多少内容

1. 什么是上下文窗口?

上下文窗口 = 模型单次推理能处理的最大Token总数
它包含两部分:

  • 你输入的内容(问题、文档、对话历史)
  • 模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

  • 小模型:2K、4K、8K
  • 通用模型:32K、64K
  • 长文本模型:128K、256K、1M以上

64K Token ≈4.8万字
128K Token ≈9.6万字

3. 上下文窗口决定什么?

  • 能不能读完整篇长文档
  • 能不能记住多轮对话
  • 能不能处理长代码、长报告
  • 能不能做复杂的总结与分析

比如:
你让模型读一份10万字的报告,如果模型只有64K窗口,就读不完,必须分段处理。

一句话总结:
上下文窗口越大,模型“一次性看懂”的内容越多,处理长文本越强。