大模型面试100问04：Prompt工程篇-IT资源栈

TL;DR

Prompt工程是让LLM听懂人话的艺术——同样的问题，换个问法效果天差地别。”让我们一步步思考”这句话为什么能让GPT-4准确率从17%提升到79%？Tree of Thoughts如何让模型像下棋一样规划？本文从8个高频面试题入手，带你搞懂Prompt工程的核心技巧：什么是好的提示词、Few-shot和Zero-shot怎么选、CoT/ToT/ReAct的本质区别、如何防御Prompt注入攻击。读完这篇，你能设计出让模型性能翻倍的Prompt。

一、Prompt Engineering基础：什么是好的提示词？

核心原则

好的Prompt = 清晰 + 具体 + 上下文

四大要素

角色定义：告诉模型”你是谁”
你是一位资深Python工程师，擅长代码优化和性能调优。
任务描述：明确”要做什么”
请分析以下代码的性能瓶颈，并给出优化建议。
输出格式：规定”怎么输出”
“`
请按以下格式输出：
性能瓶颈分析
优化建议（带代码示例）
预期性能提升
“`
约束条件：限制”不要做什么”
不要使用第三方库，只用Python标准库。

实战对比

差的Prompt：

帮我优化这段代码

好的Prompt：

你是一位资深Python工程师。请分析以下代码的性能瓶颈，并给出优化建议。

要求：
1. 只使用Python标准库
2. 保持代码可读性
3. 给出优化前后的性能对比

输出格式：
- 瓶颈分析
- 优化代码
- 性能提升预估

参考资料：OpenAI Prompt Engineering Guide

二、Few-shot vs Zero-shot：什么时候用哪个？

核心区别

维度	Zero-shot	Few-shot
示例数量	0个	1-10个
适用场景	通用任务	特定格式/风格
性能	基线	通常更好
成本	低（token少）	高（token多）

Zero-shot示例

任务：判断以下评论的情感倾向（正面/负面）

评论：这部电影太棒了，演员演技炸裂！
输出：

Few-shot示例

任务：判断以下评论的情感倾向

示例1：
评论：这部电影太棒了，演员演技炸裂！
情感：正面

示例2：
评论：剧情拖沓，浪费时间。
情感：负面

示例3：
评论：还行吧，不功不过。
情感：中性

现在判断：
评论：特效做得很用心，但剧情有点老套。
输出：

选择建议

用Zero-shot：
– 任务简单明确（如翻译、摘要）
– 模型能力强（GPT-4、Claude）
– 需要降低成本

用Few-shot：
– 需要特定输出格式
– 任务有特殊规则
– 模型能力一般

参考资料：Language Models are Few-Shot Learners (GPT-3论文)

三、思维链（CoT）：为什么”让我们一步步思考”有效？

核心原理

Chain-of-Thought：让模型显式输出推理步骤

经典案例

无CoT：

问题：Roger有5个网球。他又买了2罐网球，每罐3个。他现在有多少个网球？
答案：11个

有CoT：

问题：Roger有5个网球。他又买了2罐网球，每罐3个。他现在有多少个网球？

让我们一步步思考：
1. Roger原本有5个网球
2. 他买了2罐，每罐3个，所以买了 2×3=6个
3. 总共有 5+6=11个

答案：11个

性能提升

GSM8K数学题（GPT-3）：
– 无CoT：17.7%
– 有CoT：79.0%

两种CoT方式

Zero-shot CoT：

问题：[问题描述]
让我们一步步思考。

Few-shot CoT：

示例1：[问题] → [推理步骤] → [答案]
示例2：[问题] → [推理步骤] → [答案]
现在解决：[新问题]

为什么有效？

强制分解：复杂问题拆成简单步骤
减少跳跃：避免直接猜答案
可验证：推理过程可检查

参考资料：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (arXiv:2201.11903)

四、Tree of Thoughts：比CoT更强的推理框架

核心思想

CoT的局限：线性推理，一条路走到黑

ToT的创新：树状搜索，探索多条路径

工作流程

1. 生成多个候选思路（如3-5个）
2. 评估每个思路的质量
3. 选择最优思路继续扩展
4. 重复直到找到答案

实战案例：24点游戏

问题：用4、9、10、13算出24

ToT过程：

步骤1：生成候选
- 思路A：13-9=4, 4×10=40, 40-4=36 ❌
- 思路B：10-4=6, 13-9=4, 6×4=24 ✓
- 思路C：13-10=3, 9-4=5, 3×5=15 ❌

步骤2：评估
思路B最有希望，继续验证

步骤3：验证
(10-4)×(13-9) = 6×4 = 24 ✓

性能提升

24点游戏：
– CoT：4%
– ToT：74%

适用场景

需要规划的任务（如写作大纲）
有多种解法的问题（如数学题）
需要回溯的任务（如迷宫）

参考资料：Tree of Thoughts: Deliberate Problem Solving with Large Language Models (arXiv:2305.10601)

五、ReAct框架：推理+行动的循环

核心思想

ReAct = Reasoning + Acting

传统CoT：只有推理，没有行动
ReAct：推理 → 行动 → 观察 → 推理 → …

工作流程

问题：2023年诺贝尔物理学奖得主是谁？

Thought 1: 我需要搜索2023年诺贝尔物理学奖的信息
Action 1: Search[2023 Nobel Prize Physics]
Observation 1: Pierre Agostini, Ferenc Krausz, Anne L'Huillier

Thought 2: 找到了三位得主，我需要确认他们的获奖原因
Action 2: Search[Pierre Agostini Nobel Prize reason]
Observation 2: 表彰他们在阿秒物理学领域的贡献

Thought 3: 现在我有完整信息了
Answer: 2023年诺贝尔物理学奖得主是Pierre Agostini、Ferenc Krausz和Anne L'Huillier，获奖原因是他们在阿秒物理学领域的贡献。

与CoT的区别

维度	CoT	ReAct
能力	纯推理	推理+工具调用
信息来源	模型内部知识	外部工具（搜索、计算器）
适用场景	数学、逻辑	需要实时信息的任务

性能提升

HotpotQA问答：
– CoT：29%
– ReAct：37%

参考资料：ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629)

六、Self-Consistency：多次采样提升准确率

核心思想

问题：单次生成可能出错

解决：多次生成，投票选最优答案

工作流程

1. 用相同Prompt生成N个答案（如N=5）
2. 统计每个答案出现的次数
3. 选择出现最多的答案

实战案例

问题：一个数的3倍加7等于25，这个数是多少？

5次采样结果：
– 采样1：6 ✓
– 采样2：6 ✓
– 采样3：8 ❌
– 采样4：6 ✓
– 采样5：6 ✓

投票结果：6（4票） > 8（1票）

性能提升

GSM8K数学题：
– 单次采样：74.4%
– Self-Consistency（N=40）：78.7%

成本权衡

优势：准确率提升
劣势：成本增加N倍

参考资料：Self-Consistency Improves Chain of Thought Reasoning (arXiv:2203.11171)

七、复读机问题的Prompt解决方案

基于2024-2025技术报告的推荐参数值

参数	范围	推荐值	说明
temperature	0-2	事实QA: 0.1-0.3 创意: 0.8-1.0	控制随机性
top_p	0-1	0.9-0.95	Nucleus采样阈值
repetition_penalty	0-∞	1.1-1.2	惩罚重复token
frequency_penalty	-2~2	0.3-0.5	惩罚高频token

场景配置方案

场景	temperature	top_p	repetition_penalty
代码生成	0.0-0.2	0.9	1.0
对话机器人	0.7	0.9	1.1
创意写作	0.8-1.0	0.95	1.1-1.2

注意事项

OpenAI建议：temperature和top_p不要同时调整（选一个调）

参考资料：OpenAI API文档、Hugging Face生成参数文档

八、Prompt注入攻击与防御

OWASP LLM Top 10 2025

Prompt Injection连续两年排名第一

攻击类型

类型	描述	典型案例
Direct Injection	用户直接嵌入恶意指令	“Ignore all previous instructions…”
Indirect Injection	恶意指令隐藏在外部内容中	网页隐藏文本、RAG投毒
Typoglycemia攻击	利用LLM读取拼写错误能力绕过过滤	2024新型攻击
Best-of-N越狱	系统性生成大量变体直到突破	2024新型攻击

OWASP推荐7层防御策略

约束模型行为：系统提示明确角色和限制
定义和验证输出格式：限制输出内容
实现输入输出过滤：检测恶意指令
执行权限控制：最小权限访问
高风险操作需人工审批
隔离和标识外部内容：区分用户输入和系统指令
进行对抗性测试：攻击模拟

2025防御前沿

CaMeL框架（Google Research）：
– 通过能力机制和控制/数据流分离实现可证明安全
– 77%任务可证明安全

参考资料：OWASP LLM Top 10 2025、Google Research CaMeL论文

小结

本文从8个高频面试题入手，系统梳理了Prompt工程的核心技巧：

Prompt基础：清晰+具体+上下文+约束
Few-shot vs Zero-shot：示例数量权衡
CoT思维链：”让我们一步步思考”，准确率提升4倍
ToT树状搜索：探索多条路径，24点游戏准确率74%
ReAct框架：推理+行动循环，调用外部工具
Self-Consistency：多次采样投票，准确率提升4%
参数调优：temperature/top_p/repetition_penalty配置
安全防御：7层防御策略对抗Prompt注入

下一篇预告：RAG与Agent篇——如何让LLM连接外部世界？

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

事件分析

该项目实质上是对多智能体系统（MAS）在垂直领域应用的一次技术实验，体现了AI从单体推理向群体审议演进的技术趋势。通过引入“辩论”和“反驳”机制，系统试图利用模型之间的对抗性来修正单一模型的幻觉或逻辑漏洞，这与思维链或树搜索在目标上是一致的。虽然应用场景为小众的命理领域，但其架构具有通用性，对于需要高准确率的复杂任务（如代码审查、法律分析或财务诊断）具有参考价值。然而，这种模式也面临着推理成本指数级增加与延迟显著的挑战，如何在Token消耗与最终质量之间找到平衡点，是该技术路线能否从Demo走向生产环境的关键。

💡 核心观点：多智能体辩论机制通过引入内部对抗能有效修正推理偏差，但这标志着AI应用正从追求“单体智商”转向探索“群体智能”的协作范式。

事件分析

此类高质量实战教程的公开传播，反映了AIGC（生成式人工智能）在视频领域正加速从“概念探索”走向“落地应用”。课程大纲中重点强调的“提示词工程”与“首尾帧控制”，直击当前AI视频生成模型的技术痛点——即如何提升生成的可控性与时空连贯性。

从技术维度看，课程内容展示了传统影视制作术语（如运镜、分镜、剪辑节奏）与AI生成技术的深度融合。这表明，未来的视频创作工作流将是“传统影视理论”与“AI生成算法”的混合体。掌握控制参数和提示逻辑，正逐渐取代单纯的手工剪辑，成为内容创作者的核心竞争力。这种教程的普及，有望加速AI视频生成工具在专业制作流程中的标准化应用。

💡 核心观点：掌握提示词与参数控制成为核心竞争力，标志着AI视频生成正从“随机抽卡”迈向“可控工业化生产”。

事件分析

此次评测揭示了当前AI编程模型发展的两个关键趋势：一是长思维链与现有工具链的适配矛盾，DeepSeek Flash倾向于消耗大量Token进行任务规划，这体现了模型在复杂逻辑处理上的深度思考模式，但也对现有短输出默认配置提出了挑战；二是训练语料分布对模型能力的决定性影响，在热门前端领域的优异表现与在Rust等系统级语言中的“断崖”差距，直观反映了开源模型在长尾技术语料上的匮乏。该评测还暗示了未来AI Agent竞争将不再局限于模型参数本身，而是转向“模型+专用工具链”的综合生态建设，DeepSeek即将发布的原生Harnes ses试图解决工具调用效率问题，这表明头部厂商正试图通过软硬件协同优化来释放模型的极限性能。

💡 核心观点：仅靠参数堆砌已非万能，DeepSeek Flash的实测证明：模型的长思考推理能力必须与适配的工具链及高质量长尾语料深度耦合。

事件分析

此次测试重点验证了AI Agent在复杂长文本生成任务中的工作流能力。通过将小说创作拆解为大纲、人物设定、章节压缩等模块化步骤，Agent展示了其在执行多步骤自动化任务时的潜力，这反映了当前AI应用正从单一指令向具备自我规划能力的Agent架构演进。然而，实验中“剧情逻辑容易崩”的现象，深刻揭示了现有大语言模型在处理长程依赖关系和复杂因果推理时的固有缺陷。虽然模型能够通过概率预测生成流畅的段落，但在需要严密逻辑支撑的小说创作中，缺乏外部知识库或人工干预的纯生成模式仍难以保证内容的内在一致性。这表明，在内容创作领域，AI Agent目前更倾向于作为辅助工具提升效率，而非完全替代人工进行高质量的逻辑构建。

💡 核心观点：Agent虽能通过模块化工作流实现长文自动生成，但长程逻辑的失控暴露了大模型在复杂叙事推理上的技术边界。

事件分析

这一波价格战的本质是 AI 推理技术边际成本下降的体现。OpenAI 提及的 GPU 内核优化和推测解码技术，意味着行业正在从单纯的堆算力转向追求算法和架构的极限效率。DeepSeek V4 Flash 以 284B 参数挑战 700B+ 级别的模型，证明了“小参数高性能”的路线在特定场景下的可行性，这对盲目追求参数规模的行业风气是一次纠偏。厂商从按次付费转向按 Token 计费，反映了 AI 应用场景正从简单聊天转向复杂的 Agent 和代码生成，单一请求的资源消耗差异巨大，精细化的计费模式是商业可持续的必经之路。市场格局正在重塑，多模态能力将成为厂商抵御纯文本价格战的重要护城河。

💡 核心观点：DeepSeek 以极致性价比打破行业溢价泡沫，迫使大模型竞争从“参数军备竞赛”转向“推理效率与成本控制”的硬实力比拼。

事件分析

该技术方案的核心在于对抗大模型 API 接口层面的风控策略。随着各大 AI 厂商加强对非官方调用的限制，通过 IP 特征或请求频率触发的“降智”机制已成为阻碍开发者独立应用的主要壁垒。此开源项目通过修补出口流量，证明了非官方生态与官方风控之间的技术博弈正在升级。对于开发者而言，此类工具不仅是对访问链路的修补，更是维持 AI Agent 或自动化应用稳定性的必要手段。预计未来针对大模型接口的各种“过墙”与“反过墙”技术将持续迭代，推动开源社区在 API 代理层面积累更深厚的技术沉淀，但也面临着接口规则变更导致随时失效的不确定性风险。

💡 核心观点：开源插件通过修补出口链路成功对抗 AI 模型的“降智”风控，揭示出非官方 API 生态具有极强的技术韧性与需求刚性。

TL;DR

一、Prompt Engineering基础：什么是好的提示词？

核心原则

四大要素

实战对比

二、Few-shot vs Zero-shot：什么时候用哪个？

核心区别

Zero-shot示例

Few-shot示例

选择建议

三、思维链（CoT）：为什么”让我们一步步思考”有效？

核心原理

经典案例

性能提升

两种CoT方式

为什么有效？

四、Tree of Thoughts：比CoT更强的推理框架

核心思想

工作流程

实战案例：24点游戏

性能提升

适用场景

五、ReAct框架：推理+行动的循环

核心思想

工作流程

与CoT的区别

性能提升

六、Self-Consistency：多次采样提升准确率

核心思想

工作流程

实战案例

性能提升

成本权衡

七、复读机问题的Prompt解决方案

基于2024-2025技术报告的推荐参数值

场景配置方案

注意事项

八、Prompt注入攻击与防御

OWASP LLM Top 10 2025

攻击类型

OWASP推荐7层防御策略

2025防御前沿

小结

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

GitHub开源新尝试：让四个AI智能体互博辩论，以多智能体编排提升复杂推理质量

事件分析

影视飓风AI视频实战课资源流出：深度解析提示词与首尾帧进阶玩法

事件分析

DeepSeek Flash实测：285B参数硬刚三倍体量GLM，前端表现惊艳

事件分析

实测AI Agent全自动创作长篇小说：从大纲生成到剧情逻辑的局限

事件分析

DeepSeek V4 Flash 发布搅动 AI 市场：极低定价逼得 OpenAI 与智谱纷纷应战

事件分析

开源社区拯救 Grok 免费版：CPA 插件完美规避“降智”限制

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入