AI爆火背后这些底层逻辑，你真的懂了吗？从LLM到Agent Skill全解析！

2026/6/23 9:47:39

本文从工程视角深入解析AI系统运作机制，阐述大模型（LLM）如何通过token处理文本，context承载信息，prompt指令驱动，tool连接外部，MCP统一标准，agent自主规划，agent skill规则沉淀等关键要素协同工作。文章以ChatGPT等产品为例，揭示AI智能背后的结构性原理，帮助读者理解AI技术发展逻辑，为应对AI浪潮提供底层认知框架。

AI 圈子里每天都在冒新词：LLM、token、context、prompt、tool、MCP、agent、agent skill……

这些词你大概率都听过，但真要解释清楚，很多人会突然卡住。

这篇文章不聊虚头巴脑的商业概念，只从最底层的工程视角，把这套 AI 系统到底怎么运转讲清楚。

先记住一条主线：

大模型负责生成内容，token 是它处理文本的最小单位，context 是它每次能看到的信息总和，prompt 是你给它的指令，tool 让它连接外部世界，MCP 统一工具接入标准，agent 让它能自主规划并持续行动，agent skill 则把你的做事规则沉淀成可复用说明书。

理解这条线，你再看 ChatGPT、Claude Code、Codex、Gemini CLI 这类产品，就不会只停留在“它很智能”的感受层面，而是能看懂它们背后的结构。

LLM：大模型是整个 AI 系统的底层引擎

LLM 全称是 Large Language Model，中文通常叫“大语言模型”或“大模型”。

现在主流的大模型基本都建立在 Transformer 架构之上。这个架构最早由 Google 团队在 2017 年的论文《Attention Is All You Need》中提出，后来被 OpenAI、Anthropic、Google 等公司不断放大、训练和产品化，最终形成了今天这波 AI 浪潮。

从最朴素的角度理解，大模型做的事情像“文字接龙”：

你输入一句话，它预测下一个最可能出现的 token；生成一个 token 后，再把这个 token 追加回输入里，继续预测下一个。如此循环，直到模型判断回答结束。

所以你会看到，大模型不是一下子把完整答案吐出来，而是一个片段、一个片段地输出。它底层就是这样工作的。

Token：模型真正处理的不是文字，而是数字片段

大模型本质上是一个庞大的数学函数。它接收的是数字，输出的也是数字，并不直接认识人类语言。

在人类文字和模型之间，有一个“翻译器”，叫 tokenizer。

它主要做两件事：

编码：把文字切分成 token，再映射成 token ID。
解码：把模型输出的 token ID，再映射回人类能读懂的文字。

比如一句“陈大发的视频怎么样”，会先被 tokenizer 切成若干个 token，再变成一串数字，送进模型内部计算。

这里最容易误解的一点是：token 不等于词。

有些中文词会被拆成多个 token，有些英文单词也会被拆开。你可以把 token 理解成模型自己学会的一套文本切分规则，每一块就是它一次处理文本的基本单位。

大致估算时，一个 token 约等于 0.75 个英文单词，或者 1.5 到 2 个汉字。实际情况会根据语言、符号和 tokenizer 规则变化。

Context：大模型并没有真的记忆，它只是每次都“看见了历史”

我们平时和大模型聊天，会感觉它记得前面说过的话。

比如你一开始告诉它“我叫陈大发”，过一会儿再问“我叫什么”，它还能回答出来。

但严格来说，大模型本身没有像人一样的真实记忆。它之所以能接上前文，是因为平台在你每次发送新问题时，会把之前的对话历史一起发给模型。

模型看到的是：

当前问题
历史对话
系统规则
可用工具列表
正在生成的内容
其他必要信息

这些信息合在一起，就叫 context，也就是上下文。

你可以把 context 理解成大模型每次处理任务时的“临时工作区”。它能看见什么，就只能基于什么来回答。

Context Window：上下文窗口决定模型一次能装下多少信息

context window，中文常翻译为上下文窗口，指的是模型一次最多能处理多少 token。

如果一个模型的上下文窗口是 100 万 token，就意味着它理论上可以在一次任务里接收非常长的材料，比如一整本书、一大段项目代码、很多轮对话记录。

但上下文窗口越大，不代表你就应该什么都往里塞。

原因很简单：

成本会变高。
响应会变慢。
无关信息会干扰模型判断。
超长材料里真正有用的内容，往往只占一小部分。

所以在企业知识库、产品手册问答这类场景里，常见做法不是把整本资料全部塞进模型，而是使用 RAG。

RAG 的核心思路是：先从资料库里检索出与用户问题最相关的几个片段，再把这些片段连同问题一起交给大模型回答。

这样既节省成本，也更容易控制回答质量。

Prompt：提示词不是玄学，本质是把需求说清楚

prompt 就是你给大模型的具体问题或指令。

比如：

“帮我写一首诗。”

这就是 prompt。

但这个 prompt 太模糊了。模型可能写古诗，也可能写现代诗，还可能写打油诗。

如果你改成：

“请帮我写一首五言绝句，主题是秋天的落叶，风格悲凉一点。”

模型就更容易输出符合预期的结果。

所谓 prompt engineering，说白了就是研究如何把话说清楚，让模型更准确地理解任务。

在实际系统里，prompt 通常分成两类：

user prompt：用户在对话框里输入的具体需求。
system prompt：开发者在后台设置的人设、规则和行为边界。

比如一个数学辅导机器人，system prompt 里可以写“不要直接给出答案，要一步步引导学生思考”。这样学生问“三加五等于几”时，模型就不会直接答“8”，而会尝试引导学生理解。

user prompt 负责告诉模型“现在要做什么”，system prompt 负责告诉模型“你是谁、该按什么规则做”。

Tool：工具让大模型能连接外部世界

大模型本身没有实时感知外界的能力。

你问它“今天上海天气怎么样”，如果没有外部工具，它无法真的去查天气预报。

tool 的作用，就是给大模型一组可以调用的外部能力。

更工程化地说，tool 本质上就是函数：

输入：城市、日期、关键词、文件路径等参数。
执行：调用接口、查询数据库、读写文件、计算结果。
输出：把结果返回给模型。

需要注意的是，模型本身并不是直接执行工具的人。

它做的是判断“现在需要哪个工具”，并生成对应的工具调用指令。真正执行工具的是平台或 agent runtime。

所以完整流程通常是：

用户提出问题。
平台把问题和可用工具列表交给模型。
模型判断需要调用哪个工具，并生成参数。
平台执行工具。
工具结果返回给模型。
模型把结果整理成人话，再回复用户。

模型负责选择和总结，工具负责执行动作，平台负责串联流程。

MCP：统一工具接入标准，减少重复开发

工具很好用，但在工程上有一个麻烦：

不同平台的工具接入规范不一样。

同一个天气工具，如果要接入 OpenAI、Claude、Gemini，可能要分别按不同格式写三套适配代码。

MCP 就是为了解决这个问题出现的。

MCP 全称是 Model Context Protocol，中文可以理解为“模型上下文协议”。它的目标是提供一套统一标准，让工具开发者按同一套规范开发工具，再被不同的 AI 平台或 agent 使用。

你可以把 MCP 理解成 AI 工具世界里的 Type-C 接口。

标准统一后，工具开发者不用为每个平台重复造轮子，使用者也能更方便地把外部能力接进 AI 系统。

Agent：从一次问答，升级为持续行动

当任务只需要一次回答时，普通大模型就够了。

但现实里的很多任务不是一步完成的。

比如：

“看看我这里今天会不会下雨。如果下雨，帮我查附近有没有卖伞的地方。”

要完成这个任务，系统可能需要：

调用定位工具，获取你的位置。
调用天气工具，查询当前位置天气。
判断是否下雨。
如果下雨，再调用店铺工具搜索附近卖伞的店。
汇总结果，给出建议。

这个过程不再是简单的一问一答，而是需要模型持续判断“下一步该做什么”。

这种能自主规划、自主调用工具，并持续工作直到完成任务的系统，就叫 agent。

你可以把 agent 理解成一个会用工具、会拆步骤、会根据中间结果继续推进的 AI 执行系统。

Agent Skill：把你的做事规则变成可复用说明书

agent 已经能规划和调用工具，但它不一定知道你的个人习惯、工作偏好和输出格式。

比如你希望它做“出门提醒”：

下雨提醒带伞。
紫外线强提醒戴帽子。
空气差提醒戴口罩。
风大提醒穿防风外套。
回答必须先给一句总结，再列物品清单。

如果没有提前设定，你每次都要把这套规则重新复制给它。

agent skill 就是为了解决这个问题。

它本质上是一份写给 agent 看的说明文档，通常包含：

这个 skill 叫什么。
它适用于什么任务。
需要执行哪些步骤。
遇到不同情况如何判断。
最终结果应该按什么格式输出。
必要时给出示例。

有了 agent skill，agent 在遇到相关任务时，就能读取这份说明文档，按里面的规则执行。

更高级的 agent skill 还可以引用脚本、模板、素材和外部资源，让 agent 不只是“知道规则”，还能复用已有工具链完成复杂任务。

最后总结

把这些概念串起来，你就能看到一个完整的 AI 系统框架：

LLM 是底层引擎。
token 是模型处理文本的基本单位。
tokenizer 负责文字和数字之间的转换。
context 是模型每次任务能看到的信息总和。
context window 决定一次最多能装下多少 token。
prompt 是用户或系统给模型下达的指令。
tool 让模型连接外部世界。
MCP 统一工具接入标准。
agent 让模型具备持续规划和执行能力。
agent skill 把做事规则沉淀成可复用说明书。

理解这套结构后，再看各种 AI 产品和新概念，你会清楚很多：

它们不是凭空出现的新魔法，而是在“大模型 + 上下文 + 工具 + 协议 + 执行框架 + 规则沉淀”这套体系里，不断组合、扩展和产品化。

传统产品经理，正在成为下个被淘汰的“传统岗位”。

过去画原型、写 PRD、跟进度的“传统技能包”，在AI时代正迅速贬值。63% 的企业转型做 AI 产品！当下的问题不再是“要不要学 AI ”，而是“如何构建 AI 产品”。

前段时间还跟字节、腾讯的资深 AI 产品经理沟通，他们反馈：在大量招人，只要有 AI 相关的项目经验，基本都能拿到面试机会，而且领导很舍得给钱，涨薪 40-60% 很正常！

接下来的产品人，得卷AI能力了！

如今AI大火，行业极速发展的背后，懂AI 产品人才却严重稀缺。这不是要你转技术岗，而是要掌握构建 AI 产品的核心方法：

如何将你的领域知识，转化为 AI 产品的核心竞争力？
如何用 AI 技术实现你的产品需求？
如何设计真正懂用户的 AI 交互体验？
……

懂AI，就是产品经理的“救命稻草”！

风口之下，与其焦虑被行业淘汰

不如先人一步享受AI技术带来的红利！

我把AI产品经理的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

（不限年龄！不限岗位！没有代码基础也能学！）

🎁现在扫码，完课还送：

《AI产品面试题库》《AI大模型应用案例集》

掌握技术+实战，快速转型！

想成为一名卓越的AI大模型产品经理，需要从技术、到项目实战的全方位转型指南！

**1）**AI产品应用原理解析，产品经理也能听懂！

对于产品经理来说，如果你不懂技术，做不了业务和AI大模型技术衔接、定义不了数据需求，是没法完整的落地一个产品的！

本次课程，专门面向产品经理人群，解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理！解析AI产品应用技术，积累大模型能力！简单易懂，不需要会代码，小白也能掌握！

大模型微调：掌握主流大模型（如DeepSeek、Qwen等）的微调技术，针对特定场景优化模型性能。学习如何利用领域数据（如制造、医药、金融等）进行模型定制
AI Agent智能体搭建：学习如何设计和开发AI Agent，实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品（如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等）

2）超全行业案例解析！

课程详细讲解现阶段，大模型在各个行业和领域的应用现状！包括：零售与电商、教育、医疗、泛娱乐、法律等等10大行业！

详细讲解案例的思路、应用场景，以及背后的技术原理、核心技术！揭秘各个行业、场景的真实现状，和未来产品的发展与机遇！

可以说，讲解完一个案例，就能积累一个AI产品实践的经验！

课程中所涉及到的实战项目，都可以直接在自己的工作中使用，让自己的产品/项目有可借鉴的成功案例！

3）AI产品经理求职专项辅导

课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词，掌握AI PM高频面试题型与回答框架；展示 AI 相关能力的关键技巧：Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验；

To B类AI产品经理：突出“行业理解 + 技术落地 + 商业闭环”能力的简历结构设计，展示项目成果；从客户需求洞察到技术方案设计，展现端到产品思维；如何评估To B AI产品的可行性、客户付费意愿与实施成本
To C类AI产品经理：拆解头部公司岗位JD，将过往尽力转化为AI产品叙事逻辑；从行业趋势、产品设计题、案例分析&数据分析题、技术理解边界等全流程辅导面试；避免无效海投、锁定最适合的AI产品岗位；

本次课程，全程直播讲解，能直接对话大佬和专业助教，不懂就问，超详细的案例，小白也能轻松get！

完课后，还赠送《AI产品经理面试题库》、《AI大模型应用案例集》！不断更新中……

适合人群：