Agent Harness 是 AI 编程从提示词走向工程系统的一步-IT资源栈

Agent Harness 是 AI 编程从提示词走向工程系统的一步日报图文

过去两年，大家讲 AI 编程，最常见的词是 prompt engineering、context engineering。现在又冒出一个新词：agent harness。词一多，概念就容易乱。Caleb Writes Code 这期 8 分钟短视频，讲的其实不是一个新黑话，而是一个很现实的工程分层：当任务变长、上下文会溢出、验证不能靠嘴的时候，模型外面那层“怎么组织它干活”的系统，开始比 prompt 本身更重要了。原视频：https://www.youtube.com/watch?v=1a1VXDdIyrk

我看到这里，第一反应不是“又来一个 buzzword”，而是这个词终于把很多零散经验收了口。前面几天，我在知识库里已经连续记了几篇相关材料：一篇在讲 If you’re not the model, you’re the harness，一篇在拆 Claude Code 在大代码库里的 harness 七件套，还有一篇把 agent 说成一个 while 循环。它们本来像三堆零件，这个视频做的事，是把零件重新拼成一条更容易理解的演进线。

先把三个层级分开

视频里最有价值的一点，是把 prompt engineering、context engineering、harness engineering 放到了同一条线上看。

prompt engineering 解决的是“你怎么跟模型说话”。你给它什么角色、什么约束、什么目标，决定它第一步往哪走。

context engineering 解决的是“模型能看到什么”。上下文窗口不够大，就得想办法把仓库、文档、数据库和工具结果按需送进去。过去两年，工具调用、MCP、RAG 这些能力，本质上都在解决这一层的问题。

harness engineering 再往上一层。它解决的已经不是一句 prompt、一次检索，而是整个任务怎么被拆开、怎么循环、怎么保存状态、怎么在每一轮结束后重新开始。换句话说，它关心的是整个运行环境，而不是单次对话质量。

这和我知识库里那篇《Agent Harness 工程底座》的判断是对上的：Prompt Engineering ⊂ Context Engineering ⊂ Harness Engineering。前两层没有过时，只是变成了更大系统里的局部能力。

为什么 prompt 和 context 不够了

视频回顾了一段很典型的历史。早期模型上下文窗口很小，大家首先做的是把 prompt 写得更精确。后来发现不够，就开始做 context engineering：按需读文件、接工具、接数据库、动态缩上下文。

这一层在短任务上很好用。让 agent 搜几个文件、改一个函数、补一个脚本，通常已经够了。

问题出在任务一长，系统就开始露底。视频举的例子很直白：让 agent 克隆一个完整网站，或者做一个范围很大的功能，表面上它一直在跑，实际上中途可能已经开始自我欺骗。上下文快满的时候，它会做摘要；摘要一旦失真，后面所有判断都建在错误记忆上。于是你看到的结果就是：页面做了一半、按钮没连上、某些功能其实没测过，但 agent 以为自己已经完成了。

这件事很像人类写周报。你如果每隔两小时就把前面的工作压成一段模糊总结，再靠这段总结继续干 12 小时，最后一定会丢细节。模型也一样。上下文摘要不是免费的午餐，它只是把记忆债务往后挪。

这也是为什么我更认同知识库里那句判断：长期任务不能只靠聊天记录续命，文件系统、进度文件、状态持久化才是真正的连续性来源。

Harness 真正解决的，不是“更聪明”，而是“每轮都重来一次”

视频里最关键的转折，是对 loop 的强调。

很多人一听 harness，会先想到“外面包了一层环境”。这不算错，但还是太空。更准确的说法是：harness 通过循环，把一个会在长上下文里逐渐变钝的 agent，变成一个每次都带着新上下文重新上场的 agent。

这和以前的思路差别很大。以前是尽量把一次会话拉长，靠压缩、总结、续写，把任务硬撑完。现在更有效的办法，反而是故意把长任务切成很多轮。每一轮只做一小步，每一轮都从一个干净入口开始，再从文件、状态、需求列表里把必要信息拿回来。

视频提到 Ralph 这类系统，会先生成需求文档或任务清单，再进入循环，一次只挑一个任务做，做完就测试、记录、更新状态，然后再开始下一轮。这个架构一点都不华丽，但恰恰因为它简单，才适合长任务。

我觉得这里有个很重要的认识变化：agent 的持续性，不应该主要寄托在它“记得住”，而应该寄托在系统“留得下”。

这也是为什么 Claude Code、Ralph、LangGraph 这些看起来路线不同的系统，最后都在同一个地方收敛：不是拼命喂更多上下文，而是把任务状态外置，把循环规则写死，把验证步骤插进去。

这期视频里的广告，应该怎么处理

你特别提醒了 YouTube 提示里有广告，要注意屏蔽。我看了字幕和 description，确实有两处明显广告位：

开头第 3 行先做了一句 Quick shout out to Cursor. More on them later.
中段有一整段 Cursor sponsor，内容包括：本地跑 agent、cloud agents、Slack 集成、自动巡检网站更新

这段广告的特点是，它和主题不完全无关。它借着“agent 在云端继续运行”“接 Slack 自动触发”这些点，顺手把 Cursor 的能力塞进来了。所以如果只是按关键词机械删掉，很容易把“loop / cloud / automation”这些和正文真的有关的概念也一起删没。

比较好的处理方法，不是简单按品牌名通杀，而是按功能角色区分：

凡是介绍 Cursor 产品能力、购买导流、使用场景演示的段落，全部视为广告素材，不进正文证据链。
凡是广告段里顺带提到的通用概念，比如云端继续运行、异步执行、外部触发，只能保留为“行业现象”或“常见 harness 能力”，不能写成这期视频的核心论证证据。

所以这篇文章里，我不会把“Slack 发请求给 Cursor 自动起 cloud agent”当成作者证明 harness 的关键例子。那是 sponsor 在借题发挥。真正该留下来的，是他后面对 loop、fresh context、task iteration、requirement file 的解释。

这件事和前面几篇知识沉淀，刚好能拼成一个完整图

如果只看这期视频，你会觉得 harness 主要是在讲“循环”。这没错，但还不够完整。结合知识库里前面几篇材料，图会更完整一点。

第一篇是《AI 代理 while 循环模型》。它把 agent 拆成 Brain / Planning / Tools / Memory / Loop / Guardrails 六件套。那篇更像骨架，告诉你 agent 至少有哪些器官。

第二篇是《Agent Harness 工程底座》。那篇往前又走了一步，把 harness 细化成 orchestration loop、tools、memory、context management、state persistence、error handling、guardrails、verification loops 等一整套生产组件。它回答的是：这些器官真正落地时，工程上长什么样。

第三篇是《Claude Code 大型代码库最佳实践》。那篇给了一个很现实的产品视角：CLAUDE.md、hooks、skills、plugins、MCP、LSP、subagents，这些东西加起来，对效果的影响不比模型小。它回答的是：在真实代码库里，harness 不只是概念，而是一组具体扩展点。

这期视频的价值，恰好在于它把这三件事串起来了：

为什么会从 prompt 走到 context
为什么 context 再往前走，会撞上长任务天花板
为什么 loop + external state + orchestration 会成为下一层答案

如果说前几篇笔记是在拆零件，这期视频更像是在讲“为什么这些零件会一起出现”。

我自己的判断：Harness 不是替代 prompt，而是把 prompt 降级成一个零件

视频里有一句我很认同：harness engineering 并不会淘汰 prompt engineering，也不会淘汰 context engineering。

这句话看起来像和稀泥，其实很关键。因为很多新概念流行时，最容易犯的错就是把旧层级整个判死刑。现实不是这样。prompt 还在，只是它不再是主角。context 还在，只是它不再承担全部连续性。真正的变化是：这两者从“决定成败的核心能力”，变成了“更大系统里的必要组件”。

这就像做 Web 系统。SQL 很重要，缓存也很重要，但没有人会说一个大型系统的核心竞争力只是“SQL 写得好”或者“缓存做得巧”。当复杂度上来以后，真正决定上限的，是整个系统的分层、状态流向、错误恢复、验证和部署方式。AI agent 现在走到的，就是这个阶段。

所以我更愿意把 harness 理解成一个信号：AI 编程正在从“会不会写 prompt”转向“会不会搭系统”。

边界也要说清楚：不是所有任务都值得上厚 harness

不过这里还有一个很容易被忽略的边界。

并不是只要听见 harness，就该马上上多 agent、任务树、状态机、十几个子进程。知识库里另一篇材料说得很实在：先把单 agent 做到极限，工具超过 10 个、任务边界明显分离、或者单轮上下文已经持续失真，再考虑拆。

我认同这个口径。很多人现在做 agent，最大的风险不是 harness 太薄，而是 harness 太厚。问题还没复杂到那个程度，就先上编排、路由、子 agent、长期记忆、工作流平台，最后系统自己变成了主要负担。

这期视频真正该拿走的，不是“每个 agent 都要上 harness 大工程”，而是下面这句更朴素的判断：当任务跨小时、跨阶段、跨验证回路时，单次会话已经不是合适的抽象。 到了那一步，你就该考虑 loop、state、checkpoint、verification 这些东西了。

我的补充：以后看 AI 编程产品，别只问模型，用这四个问题更有用

看完这期视频，我会更想用下面四个问题去看一个 AI 编程产品，而不是先问“你家接的是哪个模型”：

它怎么拆任务？是一次性生成，还是有明确循环。
它怎么存状态？是靠摘要续命，还是靠文件、进度、外部状态。
它怎么验证结果？有没有测试、检查、回读、重试。
它怎么处理长任务中的失真？是压缩上下文，还是重开干净回合。

这四个问题，基本比“prompt 写得漂不漂亮”更接近真实能力上限。

如果再往前走一步，我觉得未来几年最值钱的工作，可能不是继续发明更多 prompt 技巧，而是把 harness 做得更薄、更稳、更不打扰人。最好薄到用户感觉不到它存在，但它已经把 loop、状态、验证、权限都安排好了。

模型会越来越强，这几乎是确定的。真正拉开差距的，还是模型外面那层系统设计。

就这些。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

事件分析

该方案触及了 AI 编程工程化的核心痛点：如何在多模型并存的现状下，以最低的上下文成本维持代码规范的一致性。这标志着 AI 辅助开发正从单一的“对话生成”向“工程化约束”演进。传统的 Prompt 工程往往难以覆盖复杂的架构规范，而直接将规则文档作为上下文注入，又极易消耗 Token。文章提出的基于文件系统的动态加载策略，实际上构建了一个将“工程标准”与“模型能力”解耦的控制层。这种分层架构不仅解决了 Claude 与 Gemini 等模型因训练数据差异导致的输出“精神分裂”问题，也为未来企业级 AI 开发流程提供了一种标准化的管理模式：Prompt 负责意图对齐，Rules 负责质量管控。

💡 核心观点：从 Prompt 工程进化到规则注入：用外部文件系统解耦模型能力与工程规范，是解决多模型代码碎片化并降低上下文成本的最优解。

事件分析

此次出现的大规模试用邀请，折射出大模型行业从技术竞赛转向商业化存量博弈的阶段性特征。随着各家模型在通用推理能力上的差距逐渐缩小，用户对于单一模型的依赖度正在降低，这使得“获客成本”和“用户留存”成为了比单纯的参数规模更关键的指标。OpenAI 此时释放试用名额，意在利用其在生态和产品体验（如 GPTs、Canvas）上的先发优势，通过短期的免费策略将竞品用户或观望用户锁定在其生态闭环中。此外，社区反馈的网络限制提示，也反映出 OpenAI 在激进推广的同时，依然面临着严峻的账号滥用风险和合规性挑战，这种“既要增长又要风控”的平衡将是未来 AI 产品的常态。

💡 核心观点：试用策略暴露了 OpenAI 在激烈竞品压力下的用户增长焦虑，大模型战场已从单纯的技术比拼转向商业化运营能力的全面较量。

事件分析

从技术视角来看，该研究标志着 AI 代码生成从单纯的“语法转换”向“行为等价验证”的关键跨越。传统的代码迁移工具往往难以处理复杂的业务逻辑和隐含的副作用，而引入 Agent 概念的“Locksmith Loop”通过动态对比双环境运行结果，构建了一个确定性验证闭环。这为解决日益严重的“遗留技术债务”问题提供了全新的自动化路径，特别是对于金融、政府等高度依赖 COBOL 核心系统的行业具有极高的实用价值。该方案证明了 AI 可以通过自我迭代学习来完善测试用例，降低了对人工编写测试和原始文档的依赖。未来，此类 Agent 化的工程工具极有可能成为重构基础设施的标准配置，大幅提升存量代码现代化的效率与安全性。

💡 核心观点：AI Agent 将代码迁移从黑盒转换变为可验证的白盒工程，通过保留 Bug 来验证逻辑一致性，为解决遗留系统现代化难题确立了新范式。

事件分析

该项目的核心价值在于验证了 AI 编程技术在处理传统工业协议和遗留系统方面的巨大潜力。通过将复杂的 VISA/SCPI 协议封装成 Python 接口，WaveBench 实际上充当了 AI 智能体与物理测量设备之间的“翻译层”，使得大模型能够理解并直接操作复杂的硬件环境。这标志着 AI 的应用已从单纯的代码生成扩展到了物理仪器的自动化编排，填补了软件开发与硬件测试之间的自动化鸿沟。开发者声称在竞赛中全流程使用 AI 生成代码并取得优异成绩，这一案例不仅展示了“Vibe Coding”在工程领域的实战能力，也预示着未来嵌入式开发和实验室工作流将面临深刻的效率变革。虽然目前仍处于实验阶段，但通过 MCP 协议连接物理设备的尝试，为构建虚实结合的 AI 工程生态系统提供了重要的技术参考。

💡 核心观点：WaveBench 证实了 AI Agent 不仅能编写代码，更能直接接管物理仪器，标志着硬件工程调试正式迈入智能化与自动化新阶段。

事件分析

此事件生动折射出当前 AI 智能体在复杂博弈环境中普遍存在的鲁棒性问题。所谓的“猛攻”策略失效，本质上是算法缺乏防御性策略的体现，即 AI 在执行高权重指令时，往往难以兼顾动态环境中的异常状态处理，导致系统崩溃。Arena Hero 实际上充当了一个低成本、高互动的 AI 测试沙盒，类似于强化学习中的对抗环境。随着开源社区对这类项目的关注，未来的 AI 开发趋势可能从单纯的代码生成能力，向包含策略规划、风险规避及长期逻辑闭环的高级智能体演进。这种人机混合的对抗模式，有望成为验证大模型逻辑推理能力的新基准。

💡 核心观点：AI智能体在动态博弈中的“死锁”暴露了逻辑鲁棒性短板，开源对抗沙盒正成为检验AI策略规划能力的实战演练场。

事件分析

此次量化对比揭示了 AI 基础设施市场定价权的转移，重点在于推理成本与交付能力的博弈。DeepSeek V4 Flash 通过极致的定价策略，直接挑战了 OpenAI 长期建立的“溢价模型”。从技术角度看，DeepSeek 能够在维持高性能解码（如 200k 上下文支持）的同时将 API 价格压低至竞品的 1/6，暗示其背后架构（如可能是 MoE 架构或推理优化）在算力利用率上具有显著优势。这种“价格屠夫”策略将迫使行业重新评估“模型价值”——即并非越贵的模型越好，而是单位智力成本最高的模型才最具商业落地潜力。这也预示着未来的大模型竞争将不再局限于基准测试分数，而是转向工程化实现的“性价比”竞争。

💡 核心观点：DeepSeek 以数倍的价格优势打破了 GPT 的溢价壁垒，证明大模型竞争已从单纯的能力比拼转向极致的性价比工程。

Agent Harness 是 AI 编程从提示词走向工程系统的一步

先把三个层级分开

为什么 prompt 和 context 不够了

Harness 真正解决的，不是“更聪明”，而是“每轮都重来一次”

这期视频里的广告，应该怎么处理

这件事和前面几篇知识沉淀，刚好能拼成一个完整图

我自己的判断：Harness 不是替代 prompt，而是把 prompt 降级成一个零件

边界也要说清楚：不是所有任务都值得上厚 harness

我的补充：以后看 AI 编程产品，别只问模型，用这四个问题更有用

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

终结 AI 代码风格割裂：利用 Rules 统一多模型开发规范

事件分析

OpenAI 推出 ChatGPT Plus 限时试用，加码用户留存与转化

事件分析

AI Agent实现旧代码确定性迁移：通过双环境验证将COBOL转Java

事件分析

开源项目WaveBench发布：利用AI Agent实现电子实验室仪器自动化控制

事件分析

开源游戏 Arena Hero 推出：人类、AI与算法的对抗竞技场

事件分析

DeepSeek V4 Flash 与 GPT-5.6 Luna 深度对比：API 价格低 6 倍，性价比完胜

事件分析

最新文章

热门专题

热门标签

网站统计

先把三个层级分开

为什么 prompt 和 context 不够了

Harness 真正解决的，不是“更聪明”，而是“每轮都重来一次”

这期视频里的广告，应该怎么处理

这件事和前面几篇知识沉淀，刚好能拼成一个完整图

我自己的判断：Harness 不是替代 prompt，而是把 prompt 降级成一个零件

边界也要说清楚：不是所有任务都值得上厚 harness

我的补充：以后看 AI 编程产品，别只问模型，用这四个问题更有用

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

终结 AI 代码风格割裂：利用 Rules 统一多模型开发规范

事件分析

OpenAI 推出 ChatGPT Plus 限时试用，加码用户留存与转化

事件分析

AI Agent实现旧代码确定性迁移：通过双环境验证将COBOL转Java

事件分析

开源项目WaveBench发布：利用AI Agent实现电子实验室仪器自动化控制

事件分析

开源游戏 Arena Hero 推出：人类、AI与算法的对抗竞技场

事件分析

DeepSeek V4 Flash 与 GPT-5.6 Luna 深度对比：API 价格低 6 倍，性价比完胜

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入