GPT-5.5 的提示词,从流程控制变成了结果验收

我注意到一件有意思的事:同样是用 GPT-5.5 或者 Codex,有的人能稳定跑完复杂任务,有的人则反复拿到跑偏的结果。差距不在模型能力,在于提示词的写法有没有跟上模型的进化方向。

灵姐(灵姐说AI)最近结合 OpenAI 官方的 Prompt Guidance 做了一期深度解读,原视频:https://www.youtube.com/watch?v=2vBN7s-IRN4

提示词正在从命令清单升级为工作协议

以前写提示词,有个常见的心理模式:生怕 AI 跑偏,所以把每一步都写死。第一步读取文本,第二步分析结构,第三步生成标题,第四步……写得越详细越觉得安心。

这种写法有它的历史原因。过去用的是能力相对有限的模型,详细的步骤等于给模型搭脚手架,确实有用。

但 GPT-5.5 和 Codex 这类模型的能力点不在这里。它们可以自主规划执行路径,能 self-check,能根据中间结果调整策略。你把每一步写死,等于在强迫一个有经验的工程师只能按你的旧 SOP 走。

OpenAI 这次的 Prompt Guidance 核心只有一条原则:少写流程,多写结果。不是告诉 AI 怎么走,而是告诉它什么叫完成得好。

一个好 prompt 的 7 个模块

视频里给了 7 个模块的框架,分别是:角色、协作风格、目标、成功标准、边界、交付物、停止条件。

角色设定会影响输出的风格和判断倾向,这一块比多数人以为的要重要。”一个有商业判断、懂 YouTube 点击机制的中文科技节目编导”和”内容写手”,实际交付出来的东西是不同的。

协作风格决定的是任务中途的交互方式。关键节点要不要汇报进度?遇到资料不足时继续猜还是停下来问?这块写清楚,Codex 跑长任务时就不是黑箱等待,而是人机协同。

成功标准是最容易被省略的,也是最值钱的。”点击动机清晰”不够好,”标题包含具体对比,读者 3 秒内能判断是否点击”才是可检查的。边界和停止条件也一样:告诉他哪些路不能走,比告诉他走哪条路更重要;什么时候该停比让他无限推进更重要。

视频里有个内容工厂的例子很具体。旧的写法是把历史 SOP 全贴进去,新写法是直接告诉 AI:我要做一个 YouTube 视频内容发布包,成功标准是观众点击动机清晰、有事实依据、包含标题/结构/组稿/封面方向,资料不足时启动最小补充流程。

一个是路径控制,一个是结果验收。差别在于你信不信模型能自己找到路。

几个具体细节

在 Codex 里跑长任务,最难受的是等了很久拿到一个不满意的结果。解法是在提示词里要求每完成一个关键阶段给我一个进度简报,这样可以在中途纠偏,也可以在某个阶段结果好的时候直接确认继续,从黑箱 agent 变成可以随时介入的协作。

关于检索,OpenAI 指南里有个叫 retrieval budget(搜索停止规则)的概念:核心问题已有答案、关键事实都齐了、这次任务不要求穷举,就不用继续搜。写清楚这个边界,模型更像研究员,而不是查资料机器,也能省不少 token。

事实/判断/创作分层在内容创作里尤其有用。事实层:这家公司发布了 A 产品,定价 X。判断层:这个定价可能压缩中小客户转化。推演层:如果竞争对手继续压价,增长压力会变大。不分层,AI 给的东西容易变成”一定会失败”这种推测和事实混在一起的表达。

验收标准这块,她提到可以直接在提示词里让 AI 做质检,必要时让另一个模型当裁判。比如封面生成时质检标准里有”人物不被文字遮挡”,AI 自检发现遮挡会自己修。随着你不断迭代标准,这套机制的能力也在跟着升级。

最后一块关于上下文精简,她的例子很实在:有段时间把封面相关的能力同时写进了多个 Skill,结果互相污染,触发条件冲突,整体效率反而下降了。规律是新会话只加载这次任务需要的上下文。已经封装好的 Skill,到新窗口单独跑一次,才能验证它的真实能力。

我的补充

这份指南描述的方向,在几个地方都有印证。

Khairallah 的 Context Engineering 课程有一句话:Prompt 是语法,Context 是基础设施,基础设施每次都赢语法。一个在糟糕 context 里的完美 prompt,只能产生平均结果。

OpenAI 自己开源的 Symphony 编排规范,核心设计决策里有一条:给 Agent 目标,而非严格的状态转换。

方向是一致的:模型越强,你越应该把控制权从”路径”转到”结果”。具体路径让模型自己摸索,你只需要守住目标、标准、边界和验收。

结构本身比技巧重要。把目的是什么、什么叫好、哪里不能碰写清楚,模型就有足够的信息把事情做完。剩下的让它自己走。

抢沙发

评论前必须登录!

立即登录   注册