Harness Engineering 入门概览

2026/6/22 1:42:14

上一篇我们拆解了 Harness Engineering 的知识图谱，建立了全局框架。今天这篇是整个系列真正的起点——如果你只能读一篇，读这篇。

它不是手册，不是教程。它是一张鸟瞰图：让你站在高处，看清楚这个领域的来龙去脉、核心问题、解决思路和工具生态。读完之后，你再去看任何具体内容，都能知道它在整张图上的位置。

01 | 起源：从 Vibe Coding 到 Spec Coding

要理解 Harness Engineering 为什么出现，先要理解它在反对什么。

Vibe Coding 时代（2023-2024）

ChatGPT 引爆 AI 编程后的两年，大家都在搞「氛围编程」——打开聊天框，凭直觉描述需求，AI 凭直觉生成代码，开发者凭感觉判断对错。

这种方式有它的魔力：启动成本极低，简单需求几分钟出结果，原型验证效率极高。

但当你试图用它做真正的工程时，五个问题接连暴露：

问题	典型表现
不可控	同样的需求，AI 每次生成的代码都不一样
不一致	同类规范在不同会话中产生分歧
不可重现	出 bug 后无法复盘「AI 当时是怎么想的」
不可协作	多人各自和 AI 对话，方案五花八门
不可演进	一段时间后，连 AI 自己都不认识自己写的代码

更深层的问题是：AI 生成的代码看起来像工程产物，但创造它的过程不是工程过程。

业界的选择

2024 年底，业界开始问一个根本问题：我们要的是 AI替代软件工程师，还是 AI增强软件工程师？

「增强」路线赢了。理由很现实：企业合规审计是硬条件，多人协作不可能各自 vibe，生产系统不允许「运气好」。

于是从 2025 年开始，业界系统性地在 AI 周围搭建工程化基础设施：

2025 年初：GitHub 发布 Spec-Kit
2025 年中：fission-ai 发布 OpenSpec，Anthropic 发布原生支持 Sub-Agent 的 Claude Code
2025 年下半年：GSD、ECC、Trellis 等工具方法论涌现

这个潮流有三个名字：Spec-Driven Development（规范驱动开发）、Spec Coding、Harness Engineering（最广义的称呼）。

02 | 什么是 Harness Engineering？

Harness 这个词本意是「缰绳/挽具」——用来约束和引导马的工具。约束不是为了削弱，而是为了聚焦。河水四处流动什么都干不了，修了堤坝才能发电。

完整定义：

Harness Engineering 是一种 AI 编程时代的工程方法论，通过结构化文档、阶段化流程、原子化任务三大策略，约束和引导 AI 编码代理的行为，使其产出符合软件工程标准的可靠成果。

与传统工程的本质区别，一张表说清楚：

维度	传统软件工程	Harness Engineering
协作主体	人 ↔ 人	人 ↔ AI ↔ 人
真相源	代码 + 文档	代码 + 文档 + AI 上下文
决策载体	会议 + 评审 + ADR	文件 + 流程 + 命令
核心矛盾	复杂度管理	复杂度管理 + AI 不可控性

最关键的差异：传统工程只面对人的不可靠，Harness 同时面对人和 AI 的不可靠——而且两者的不可靠模式完全不同。

03 | 核心问题：Context Rot 深度解析

Harness Engineering 要解决的核心问题叫Context Rot（上下文腐烂）：

LLM 在长上下文或多轮对话中，输出质量随时间和信息累积而退化的现象。

三大成因：

成因一：上下文窗口有限

Claude Sonnet 200K tokens、GPT-4 128K tokens——这不是核心问题，核心问题在后两条。

成因二：注意力机制稀释

Transformer 的 self-attention 是 O(n²) 复杂度。上下文越长，每对 token 间的注意力权重越小，关键信息被淹没。

Stanford/Berkeley 2023 年论文《Lost in the Middle》证明：模型对长上下文中部信息的召回率呈 U 型分布——开头和结尾召回率高，中间显著低。

成因三：累积污染

多轮对话中，每轮的错误尝试、中间产物、推翻重来的内容都留在上下文里，挤占关键信息的注意力空间。

症状都很隐蔽：「明明说过用 PostgreSQL，怎么写出 MongoDB 代码了？」「明明已经实现的功能又实现了一次。」「会话前期质量很高，后期突然变差。」——这些不是 AI 今天状态不好，是 Context Rot 的标准症状。

为什么「更长上下文」不是解药？

窗口从 200K 变成 1M，注意力稀释依然存在；推理成本随 token 数超线性增长；信息越多未必决策越好，给 AI 100 份 spec，效果可能不如精选的 5 份。

Harness 的解法不是扩大上下文，而是绕过这个问题：

决策外化为文件（空间维度）：信息存在文件系统，按需加载
流程结构化为阶段（时间维度）：每阶段聚焦单一决策，避免多目标污染
任务原子化为单元（资源维度）：每个任务在干净上下文中独立执行

04 | 核心概念速查

这里列出整个系列里最常出现的 10 个概念，先有印象，后续文章会逐一深入：

Spec-Driven Development（SDD，规范驱动开发）：先写规范再写代码。规范不是事后注释，而是事前约束——AI 必须严格按规范实现。代表框架：Spec-Kit、OpenSpec。

Context Engineering（上下文工程）：主动管理 LLM 上下文窗口的技术，决定什么信息进入、何时清理、如何在多个实例间分配。区别于 Prompt Engineering：前者关注「怎么问」，后者关注「AI 知道什么」。

Constitution（项目宪法）：项目级不可妥协的全局约束文件，每个新会话开始时自动加载，包含技术栈规定、编码规范、安全底线。

Delta Spec（增量规范）：OpenSpec 的核心概念，每次变更只描述差异（ADDED / MODIFIED / REMOVED），而非重新描述完整状态。类比：需求层级的 Git diff。

Sub-Agent（子代理）：主代理启动的、运行在独立上下文中的子任务执行单元。价值：上下文隔离 + 单一职责 + 可并行。

Wave Execution（波次执行）：GSD 的核心调度模型，把任务依赖图（DAG）分析后，无依赖的任务分波次并行执行。理论上把 O(N) 串行时间压缩到关键路径长度。

Hooks（钩子）：事件驱动的自动化触发器。PreCommit、PostEdit、SessionStart 等事件发生时自动执行预定脚本，把「应该做但容易忘」的事变成自动化。

ADR（架构决策记录）：把每个架构决策的动机、选项、影响记录为独立文档。Harness 里的 proposal.md 本质是 AI 时代的 ADR。

Lost in the Middle：LLM 对长上下文中部信息召回率显著下降的现象，Context Rot 的核心理论根源。

Goal-Backward Verification（目标倒推验证）：GSD 的验证方法，从用户视角倒推，而非从实现细节验证。区别：「登录函数返回了 token」✅ vs「用户能否登录后访问主页」❌（发现 token 没存到 cookie）。

05 | 框架生态全景

四大框架家族，每个解决不同维度的问题：

规范驱动（SDD）— 决策外化的主战场

Spec-Kit：五阶段、Constitution + 全量 Spec、绿地项目首选
OpenSpec：三阶段、Delta Spec 增量规范、棕地项目首选 ⭐
Kiro（AWS）：IDE 原生集成

上下文工程— 对抗 Context Rot 的极致代表

GSD：波次执行 + Goal-Backward 验证，任务原子化的最佳实践 ⭐

能力增强— 给 AI 装「外挂」

ECC：48 个 Agents + 182 个 Skills + 红蓝队审计机制 ⭐
OMC：19 个团队代理，零配置开箱即用

编排协作— 多框架协同

经典组合：规范层（OpenSpec）+ 执行层（GSD）+ 能力层（ECC）= 做什么 + 怎么做 + 用什么做

06 | 演进史：从 Prompt Engineering 到 Harness Engineering

理解 Harness 最好的方式，是把它放进演进史里：

阶段一：Prompt Engineering（2022-2023）——怎么问

Few-shot、思维链、角色扮演……聚焦单轮交互，不解决多人长期协作问题。

阶段二：Context Engineering（2024）——AI 知道什么

动态上下文加载（RAG）、上下文压缩、Multi-Agent……把「上下文」作为第一类对象设计，但仍不关注与人类工程实践（Git、CI、Code Review）的整合。

阶段三：Harness Engineering（2025 至今）——AI 怎么工作

决策外化 + 流程阶段化 + 任务原子化，与 Git/CI 深度集成，形成完整方法论体系。

每个阶段都包含前一个阶段。学 Harness 不意味着抛弃 Prompt Engineering——你仍然需要会写好的 prompt。但只会写 prompt，解决不了多人长期项目的协作问题。

总结

Harness Engineering 的诞生是必然：Vibe Coding 的五大问题（不可控、不一致、不可重现、不可协作、不可演进）推动业界转向工程化路线
Context Rot 是核心矛盾：不是 AI 不够聪明，是长上下文下的注意力稀释和累积污染——更长的窗口解决不了这个问题
三大原理是解法基石：决策外化（空间）+ 流程阶段化（时间）+ 任务原子化（资源），三者协同才是完整的 Harness
四大框架家族各司其职：SDD 管规范、上下文工程管执行、能力增强管工具、编排框架管协同，经典组合是 OpenSpec + GSD + ECC
这是一个演进中的领域：Prompt Engineering → Context Engineering → Harness Engineering，每一步都是对前一步的包含和超越

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

Harness Engineering 入门概览

01 | 起源：从 Vibe Coding 到 Spec Coding

02 | 什么是 Harness Engineering？

03 | 核心问题：Context Rot 深度解析

04 | 核心概念速查

05 | 框架生态全景

06 | 演进史：从 Prompt Engineering 到 Harness Engineering

总结

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

最新新闻

日新闻

周新闻

月新闻

01 | 起源：从 Vibe Coding 到 Spec Coding

02 | 什么是 Harness Engineering？

03 | 核心问题：Context Rot 深度解析

04 | 核心概念速查

05 | 框架生态全景

06 | 演进史：从 Prompt Engineering 到 Harness Engineering

总结

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

终极免费方案：轻松解密网易云音乐NCM格式，实现音乐跨平台播放自由

多植结构问题的计算复杂性：SoS与SQ模型分析

5分钟掌握QuickCut：一款高效实用的开源视频处理工具

最新新闻

日新闻

周新闻

月新闻

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】