大模型基础（二）：必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

2026/6/25 22:33:50

在上一篇文章里，我们搞懂了什么是大语言模型（LLM）、狭义大模型与广义大模型的区别，以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型，就会频繁遇到这些词：
Token、上下文长度、Embedding、预训练、微调。
它们是大模型的“底层语言”，不懂这5个概念，就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语，用大白话+生活例子，带你彻底吃透。

一、Token：大模型眼里的“文字单位”

1. 什么是Token？

Token（词元）是大模型处理文本的最小单位。
模型不直接认识汉字、英文单词，它只认识Token。

可以简单理解为：

汉字 ≈ 1个Token
英文单词 ≈ 1个Token
数字、符号、标点 ≈ 1个Token

2. 官方换算规则

1个中文字符 ≈0.6个Token（近似1个）
1个英文字符 ≈0.3个Token
日常使用可以直接记：1个汉字 ≈ 1个Token

3. 为什么要懂Token？

计费：API按Token收费（输入+输出）
限制：模型一次能处理的文字上限由Token决定
效率：文本越长，Token越多，推理越慢

举个例子：
“人工智能正在改变世界”
分词后：人工、智能、正在、改变、世界 →5个Token

一句话总结：
Token就是大模型的“文字货币”，一切计算、长度、费用都按它算。

二、上下文窗口（Context Window）：模型一次能“记住”多少内容

1. 什么是上下文窗口？

上下文窗口 = 模型单次推理能处理的最大Token总数。
它包含两部分：

你输入的内容（问题、文档、对话历史）
模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

小模型：2K、4K、8K
通用模型：32K、64K
长文本模型：128K、256K、1M以上

64K Token ≈4.8万字
128K Token ≈9.6万字

3. 上下文窗口决定什么？

能不能读完整篇长文档
能不能记住多轮对话
能不能处理长代码、长报告
能不能做复杂的总结与分析

比如：
你让模型读一份10万字的报告，如果模型只有64K窗口，就读不完，必须分段处理。

一句话总结：
上下文窗口越大，模型“一次性看懂”的内容越多，处理长文本越强。

大模型基础（二）：必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

一、Token：大模型眼里的“文字单位”

1. 什么是Token？

2. 官方换算规则

3. 为什么要懂Token？

二、上下文窗口（Context Window）：模型一次能“记住”多少内容

1. 什么是上下文窗口？

2. 常见上下文长度

3. 上下文窗口决定什么？

最新新闻

日新闻

周新闻

月新闻

一、Token：大模型眼里的“文字单位”

1. 什么是Token？

2. 官方换算规则

3. 为什么要懂Token？

二、上下文窗口（Context Window）：模型一次能“记住”多少内容

1. 什么是上下文窗口？

2. 常见上下文长度

3. 上下文窗口决定什么？

相关新闻

2026年重庆山三云企售后跟进的技术解析与工作要点说明

LoRA微调实战：在笔记本上高效微调大模型的完整指南

Android虚拟定位技术架构揭秘：基于调试API的无ROOT位置模拟实现原理

最新新闻

日新闻

周新闻

月新闻