GPT-5.5 的提示词，从流程控制变成了结果验收-IT资源栈

我注意到一件有意思的事：同样是用 GPT-5.5 或者 Codex，有的人能稳定跑完复杂任务，有的人则反复拿到跑偏的结果。差距不在模型能力，在于提示词的写法有没有跟上模型的进化方向。

灵姐（灵姐说AI）最近结合 OpenAI 官方的 Prompt Guidance 做了一期深度解读，原视频：https://www.youtube.com/watch?v=2vBN7s-IRN4

提示词正在从命令清单升级为工作协议

以前写提示词，有个常见的心理模式：生怕 AI 跑偏，所以把每一步都写死。第一步读取文本，第二步分析结构，第三步生成标题，第四步……写得越详细越觉得安心。

这种写法有它的历史原因。过去用的是能力相对有限的模型，详细的步骤等于给模型搭脚手架，确实有用。

但 GPT-5.5 和 Codex 这类模型的能力点不在这里。它们可以自主规划执行路径，能 self-check，能根据中间结果调整策略。你把每一步写死，等于在强迫一个有经验的工程师只能按你的旧 SOP 走。

OpenAI 这次的 Prompt Guidance 核心只有一条原则：少写流程，多写结果。不是告诉 AI 怎么走，而是告诉它什么叫完成得好。

视频里给了 7 个模块的框架，分别是：角色、协作风格、目标、成功标准、边界、交付物、停止条件。

角色设定会影响输出的风格和判断倾向，这一块比多数人以为的要重要。”一个有商业判断、懂 YouTube 点击机制的中文科技节目编导”和”内容写手”，实际交付出来的东西是不同的。

协作风格决定的是任务中途的交互方式。关键节点要不要汇报进度？遇到资料不足时继续猜还是停下来问？这块写清楚，Codex 跑长任务时就不是黑箱等待，而是人机协同。

成功标准是最容易被省略的，也是最值钱的。”点击动机清晰”不够好，”标题包含具体对比，读者 3 秒内能判断是否点击”才是可检查的。边界和停止条件也一样：告诉他哪些路不能走，比告诉他走哪条路更重要；什么时候该停比让他无限推进更重要。

视频里有个内容工厂的例子很具体。旧的写法是把历史 SOP 全贴进去，新写法是直接告诉 AI：我要做一个 YouTube 视频内容发布包，成功标准是观众点击动机清晰、有事实依据、包含标题/结构/组稿/封面方向，资料不足时启动最小补充流程。

一个是路径控制，一个是结果验收。差别在于你信不信模型能自己找到路。

在 Codex 里跑长任务，最难受的是等了很久拿到一个不满意的结果。解法是在提示词里要求每完成一个关键阶段给我一个进度简报，这样可以在中途纠偏，也可以在某个阶段结果好的时候直接确认继续，从黑箱 agent 变成可以随时介入的协作。

关于检索，OpenAI 指南里有个叫 retrieval budget（搜索停止规则）的概念：核心问题已有答案、关键事实都齐了、这次任务不要求穷举，就不用继续搜。写清楚这个边界，模型更像研究员，而不是查资料机器，也能省不少 token。

事实/判断/创作分层在内容创作里尤其有用。事实层：这家公司发布了 A 产品，定价 X。判断层：这个定价可能压缩中小客户转化。推演层：如果竞争对手继续压价，增长压力会变大。不分层，AI 给的东西容易变成”一定会失败”这种推测和事实混在一起的表达。

验收标准这块，她提到可以直接在提示词里让 AI 做质检，必要时让另一个模型当裁判。比如封面生成时质检标准里有”人物不被文字遮挡”，AI 自检发现遮挡会自己修。随着你不断迭代标准，这套机制的能力也在跟着升级。

最后一块关于上下文精简，她的例子很实在：有段时间把封面相关的能力同时写进了多个 Skill，结果互相污染，触发条件冲突，整体效率反而下降了。规律是新会话只加载这次任务需要的上下文。已经封装好的 Skill，到新窗口单独跑一次，才能验证它的真实能力。

这份指南描述的方向，在几个地方都有印证。

Khairallah 的 Context Engineering 课程有一句话：Prompt 是语法，Context 是基础设施，基础设施每次都赢语法。一个在糟糕 context 里的完美 prompt，只能产生平均结果。

OpenAI 自己开源的 Symphony 编排规范，核心设计决策里有一条：给 Agent 目标，而非严格的状态转换。

方向是一致的：模型越强，你越应该把控制权从”路径”转到”结果”。具体路径让模型自己摸索，你只需要守住目标、标准、边界和验收。

结构本身比技巧重要。把目的是什么、什么叫好、哪里不能碰写清楚，模型就有足够的信息把事情做完。剩下的让它自己走。