20个AI底层概念：小白程序员必备，收藏学习，秒懂AI精髓！

2026/6/22 14:18:00

本文深入浅出地介绍了20个AI底层核心概念，包括神经网络、分词、嵌入、注意力机制、Transformer等，帮助读者全面理解AI的运作机制。文章还涵盖了LLM、上下文窗口、温度、幻觉、提示工程等关键要素，以及模型强化和真实系统搭建的相关知识。通过学习这些概念，读者将能够更好地掌握AI技术，并在实际应用中取得更好的效果。

每个人都在用 AI。几乎没有人真正理解它是怎么工作的。人们随口抛出 transformers、embeddings、RAG、agents、RLHF——仿佛大家都已经懂了。其实大多数人不懂。说实话，一旦你看懂了背后的心智模型，AI 其实没那么复杂。

ChatGPT、Claude、Midjourney、Cursor、coding agents——理解了下面这 20 个概念，它们就全通了。

第一部分：AI 到底怎么工作（一切的基础）

1. Neural Networks（神经网络）

每个 AI 模型的大脑。

神经网络是一个由多层结构组成的流水线：数据进入输入层 → 穿过隐藏层 → 以预测结果输出。每条连接有一个"权重"——一个微小的数值，控制一个神经元对下一个神经元的影响程度。

训练 = 调整数十亿个这样的权重，直到输出结果足够准确。

想法很简单。规模上来就很惊人。

GPT-4 有约 1.8 万亿参数。Claude 3 Opus 有数千亿。全都基于同一个基础概念：分层排列的神经元，加上可调节的连接权重。

2. Tokenization（分词）

在 AI 读你的文本内容之前，它先把文本切成小块，叫 token（词元）。

不总是完整的词。

"playing"→"play"+"ing"

"ChatGPT"→"Chat"+"G"+"PT"

"dog"→"dog"（保持完整）

为什么不直接使用完整的单词？有生词、拼写错误、混合语言。一个固定的单词词汇表会大到离谱。

Token 是可复用的构建块。即使模型从没见过某个词，它也可以通过拆成熟悉的片段来理解。

粗略规则：1 token ≈ 0.75 个单词。 1000 token ≈ 750 个单词。

3. Embeddings（嵌入）

文本被 token 化后，每个 token 变成一个数字。

这个数字就是一个 embedding——一个表示语义的向量。

把它想象成词语的 Google Maps：

“Doctor” 和 “Nurse” 靠得很近
“Doctor” 和 “Pizza” 离得很远
“King” 减 “Man” 加 “Woman” ≈ “Queen”

模型不像你一样"理解"词语。它理解的是距离和方向。

这正是以下能力的底层支撑：→ 语义搜索 → 推荐系统 → RAG 系统

所有"能理解意图"的功能，底层都在用 embeddings。

4. Attention（注意力机制）

“Apple” 这个词在不同句子里有不同的意思：

“I ate an Apple” → 水果
“I bought Apple stock” → 公司

只靠 embeddings 解决不了这个问题。Attention 能。

Attention 让句子中的每个词都能“关注”其他所有词，并自行判断哪些才是关键信息。

在 “She bought shares in Apple” 中：“Apple” 对 “shares” 和 “bought” 分配了很高的注意力 → 模型得出结论：公司，不是水果。

引入 Attention 之前，模型只能从左到右逐词处理。速度慢。能力受限。

引入 Attention 之后，模型能一次性全局看清整句话。

正是这一个构想，直接开启了新的 AI 时代。

5. Transformers

驱动当今几乎所有 AI 模型的底层架构。

2017 年在一篇题为 “Attention Is All You Need” 的论文中首次提出。

核心突破：不再逐词阅读文本，而是借助 Attention（注意力机制）并行处理一切。
工作流程：文本 → Tokens → Embeddings → 堆叠的注意力层 → 输出。
逐层深化理解：→ 浅层：语法与基础结构 → 中层：词汇关联 → 深层：复杂推理
最终结果：训练速度实现跨越式提升，输出质量大幅优化。

GPT。Claude。Gemini。Llama。Mistral。全是 Transformer。理解这一个架构，你就理解了现代 AI。

第二部分：LLM 是怎么工作的（你跟 AI 聊天时实际在发生什么）

6. LLMs（大语言模型）

LLM 是一个在海量文本上训练出来的 Transformer。

书籍、网站、代码、Wikipedia、Reddit。数万亿 token。

训练任务听起来简单到不像能产生强大智能：预测下一个 token。就这个。

但当你在万亿级别的样本上反复做这件事，一些了不起的事情出现了。模型学会了语法。然后学会了推理。然后学会了写代码、翻译、解数学题。没有人告诉它去做这些事。它是从大规模"下一 token 预测"中涌现出来的。

“Large” = 数千亿参数。训练成本 = 数百万美元。

ChatGPT、Claude、Gemini → 全部是 LLM。

7. Context Window（上下文窗口）

每个 AI 模型都有一个记忆上限，叫 context window。

它是模型一次能"看到"的最大 token 数量——你的消息 + 它的回复 + 对话历史。

早期 GPT：约 4,000 token。
GPT-4：128,000 token。
Claude 3.5：200,000 token。
Gemini 1.5 Pro：1,000,000 token。

更大的窗口 = 更多上下文 = 更好的回答。

但有个坑。模型并不平等地阅读所有内容。它关注上下文窗口的开头和结尾。中间部分？经常被忽略。这叫"Lost in the Middle"（中间丢失）问题。

大上下文窗口 ≠ 完美记忆。理解这一点，你就明白为什么 AI 有时会"忘记"你明确说过的东西。

8. Temperature（温度）

AI 生成文本时，不是每次都选最可能的下一个词。

它有一个旋钮叫 temperature。

Temperature = 0：始终选最安全、最可预测的词
Temperature = 1：更有创意、更多变化
Temperature = 2+：开始放飞，有时前后不连贯

低 temperature → 用于：代码、事实、摘要。高 temperature → 用于：头脑风暴、创意写作、变体。

大多数工具自动替你设好。但理解它，你就明白了为什么有时 AI 看起来"很无聊"，有时又让你惊讶。

9. Hallucination（幻觉）

AI 信心满满地撒谎。不是故意的。它根本控制不住。

原因：LLM 不是在搜索真相。它是在预测下一个最可能的 token 是什么。如果一个错误陈述看起来像是"按训练模式应该出现在这里"的东西，它就生成出来。

没有验证。没有查证。纯模式匹配。

所以它会：引用一篇不存在的论文、发明一个从未被创建的 API 函数、以完全确信的口吻陈述一个虚假的历史"事实"。

这就叫 hallucination。

应对方式：永远不要未经核验就信任 AI 产出的“事实”。用 RAG（概念 16）把它锚定在真实数据上。

10. Prompt Engineering（提示工程）

你问问题的方式改变一切。

同一个模型。同一个问题。完全不同的结果，取决于你怎么写。

差的 prompt：“解释 API。” → 得到：模糊、表层的回答。

好的 prompt：“解释 REST API 如何处理认证。给一个带代码的真实示例。假设我是一名初级开发者。” → 得到：具体、结构化、立刻能用。

Prompt engineering 就是清晰的沟通。真正有效的技巧：给上下文（“我在为 X 构建一个 SaaS”）、赋予角色（“扮演一名资深后端工程师”）、给出示例（“我喜欢的格式是这样的：___”）、明确输出要求（“以编号列表形式给我 5 个选项”）、把复杂请求拆解成多步。

Prompt engineering 并非什么取巧的捷径。它是你跟模型沟通的主要方式。

第三部分：AI 模型如何变强（裸模型如何变成有用的产品）

11. Transfer Learning（迁移学习）

从零开始训练太昂贵了。天量数据、海量算力、数周训练时间。

Transfer learning 解决了这个问题。你拿一个已经在超大通用任务上训练好的模型，把它适配到特定领域。你不是从零开始。你是在已有基础上继续构建。

类比：你本来就会骑自行车 → 学摩托车就快得多 → 因为迁移了你已经知道的东西。

如今几乎所有 AI 产品的运作方式都是如此：

→ OpenAI 训练大规模基础模型（foundation model） → 企业针对具体业务场景进行微调（fine-tuning） → 节省数百万算力成本与数月训练周期

再也没有公司会从零开始训练模型了。

12. Fine-Tuning（微调）

Transfer learning 告诉你概念。Fine-tuning 告诉你具体怎么做。

你拿一个预训练好的模型，在一个更小、更聚焦的数据集上继续训练。模型已经掌握了“通用语言”。现在，你要教它你的垂直领域。

示例：医疗模型基于临床病历微调 → 法律模型基于合同微调 → 代码模型基于 GitHub 数据微调

结果：得到一个能完美适配你业务场景的模型。

代价：你需要更新数十亿参数。这需要庞大的算力——多块 GPU，以及配套的专业级基础设施。这就是为什么 LoRA（下一个概念）如此重要。

13. RLHF（基于人类反馈的强化学习）

Fine-tuning 让模型变得专业。RLHF（人类反馈强化学习）则让它们变得"好用且安全"。

没有 RLHF：模型只是在预测文本。流利，但不被约束。有了 RLHF：模型学会了人类偏好。

流程：给模型一个 prompt → 模型生成多个回复 → 人类给这些回复排序 → 模型学会以人类的标准进行取舍。重复数千次。

模型构建出一种"好答案"的标准：清晰、有帮助、诚实、安全。

这就是为什么 ChatGPT 和 Claude 感觉像助手——而不是随机文本生成器。没有 RLHF，它们仍然会很厉害，但远没这么有用、没这么可信、也更难控制。

14. LoRA（低秩适配）

Fine-tuning 强大但昂贵。更新数十亿参数需要多块 GPU 和专业级基础设施。

LoRA 解决了这个问题。

LoRA 不改变整个模型，而是：将原始模型参数冻结 → 在顶层添加极小的可训练层 → 这些层的参数量仅为完整模型的零头。

洞察：大多数微调所需的改动其实很小。你不需要重写整个模型。你只需要小的、精准的调整。

效果：在一块消费级 GPU 上就能做微调。存储一个基座模型 + 灵活切换不同 LoRA 适配器：实用 → 无需海量存储即可拥有多个专用模型：搞定

LoRA 正是开源 AI 爆发式增长的关键推手。一夜之间，任何人都能在笔记本上微调强大的模型。

15. Quantization（量化）

模型越来越大。运行它们需要大量内存和算力。

量化让它们更小、更便宜地运行。

怎么做：降低每个权重的精度。一个以全精度存储的权重用 32 位。量化到 4 位 → 缩小 8 倍。

令人难以置信的是：质量下降常常出奇地小。

这就是为什么你现在可以：在 MacBook 上跑 LLaMA、在消费级 GPU 上本地跑 Mistral、在手机上用强大模型。

没有量化，大型模型会被锁在数据中心里。有了量化，它们跑在你的机器上。

第四部分：真正的 AI 系统是怎么搭建的（你实际使用的产品背后是什么）

16. RAG（检索增强生成）

LLM 会产生幻觉（hallucination），是因为它们仅凭"记忆"作答。

RAG 通过让它们先"查证"再回答，从根本上解决了这个问题。

流程：用户提问 → 系统在知识库中搜索相关文档 → 那些文档作为上下文传给模型 → 模型用真实信息回答——而不是靠猜。

类比：闭卷考试（无 RAG）：凭记忆作答，经常错。开卷考试（RAG）：查资料，准确得多。

为什么强大：数据变了不需要重新训练——更新文档就行。模型始终基于最新、准确的信息工作。大幅减少幻觉。

每个严肃的 AI 产品都在用 RAG。客服机器人、法律工具、医疗助手、内部知识库。

17. Vector Databases（向量数据库）

RAG 需要快速找到正确的文档。但你怎么在数百万份文档中按语义搜索——不只是匹配关键词？

向量数据库。

工作原理：每篇文档都被转换为一个向量（embedding）——即一串数值→ 这些向量存储在数据库中 → 当用户提问时，问题本身也被转换为向量 → 数据库检索与问题向量最接近的向量 → 返回语义上最相似的文档。

为什么比关键词搜索好："心脏病治疗"能找到关于"心脏护理方案"的文档。即使确切的词一个都对不上，语义对上了。

工具：Pinecone、Qdrant、Weaviate、pgvector。

向量数据库正是让 AI 系统真正"理解"内容——而非仅仅匹配字符串——的核心基础设施。

18. AI Agents（AI 智能体）

LLM 回复消息。AI agent 真的去做事。

区别：LLM——你问，它答，结束。Agent——你给一个目标，它制定计划、采取行动、检查结果、调整、重复。

Agent 循环：思考 → 行动 → 观察 → 重复。

示例：一个 coding agent 修 bug——读取 issue → 探索代码库 → 定位问题 → 写修复 → 跑测试 → 看到什么失败了 → 调整修复 → 重复直到搞定。

模型是大脑。工具是手。

Agent 能使用什么工具？网页搜索、代码执行、文件系统、API、邮件/日历、数据库。

Agent 是把 AI 从聊天机器人变成同事的东西。

19. Chain of Thought / CoT（思维链）

有时 AI 答错，并非因为它"笨"，而是因为它太急于给出答案。

Chain of thought 解决了这个问题。

不是直接给最终答案：“求解：一列火车以 60公里/小时的速度行驶 2.5 小时，走了多远？”

而是让它一步步思考：“逐步求解：速度 = 60公里/小时。时间 = 2.5 小时。距离 = 速度 × 时间 = ?”

模型一步步推理：步骤 1：识别公式 → 步骤 2：代入数字 → 步骤 3：计算。

对于数学、逻辑推理与多步骤任务，可靠性大幅提升。

核心洞察：为模型留出“思考”的空间，而非仅仅让它机械反应。这也正是为何 “think step by step” 或 “reason through this carefully” 这类 Prompt 能真正奏效的原因。

20. Diffusion Models（扩散模型）

之前所有内容都是关于文本的。

Diffusion models 解释了 AI 如何生成图像。

这个过程是反直觉的。模型学的不是画图。它学的是摧毁图像。

训练：从一张真实图像开始 → 一步步添加噪声，直到变成纯雪花 → 训练模型逆转这个过程——一步步去除噪声。

生成：从纯噪声开始 → 模型一步步去除噪声 → 由你的文本 prompt 引导 → 图像从随机性中浮现。

名字来自物理学——粒子在介质中随机扩散，像墨水滴入水中扩散开。在这里，模型学的是逆转扩散。

不止是图像了：视频（Sora、Runway）、音频、3D 内容、药物分子。

扩散模型（Diffusion models）正是 AI 生成所有视觉内容的核心机制。

最后

如果说程序员已经是高薪职业，那么干AI的程序员，就是高薪中的高薪。

现在的市场，已经用数据给程序员指明了方向：学AI大模型，就是冲刺高薪的最优解！

看着身边越来越多的同行转型大模型、拿到高薪offer，很多人心里都动了心，但真正的难题来了：零基础小白不知道从哪入门？有基础的程序员找不到系统学习路径？实战项目练手无门？面试不知道考什么？

别慌！今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包，覆盖从入门到实战、从理论到面试、从基础到进阶的全流程，所有资料均已整理归档，无冗余、无套路，免费分享给每一位想抓住AI风口的程序员和小白！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】