
先说结论
如果你主要用 Claude Code 做工程开发,Opus 4.6 的提升是明显的,但不是“全线碾压”。
- 终端型 Agent 编码(Terminal-Bench 2.0):
65.4%,比 Opus 4.5 提升+5.6个百分点。 - 传统代码修复(SWE-bench Verified):
80.8%,和 Opus 4.5 的80.9%基本持平。 - 工具调用、搜索、跨学科推理、办公任务这些“复合型工作流”提升更明显。
- 也有回落项:MCP Atlas(大规模工具使用)从
62.3%降到59.5%。
一句话:4.6 的强项不只是“写代码”,而是把“写代码 + 查资料 + 调工具 + 产文档”这条链路拉长后,稳定性更高。
图表 OCR 识别并汉化(已按官方数值校正)
说明:OCR 原文会有少量错字(例如把
56.2%识别成96.2%),下表已用官方图和 System Card 校正。
| 维度(汉化) | 原始评测 | Opus 4.6 | Opus 4.5 | 变化(4.6-4.5) |
|---|---|---|---|---|
| Agent 终端编码 | Terminal-Bench 2.0 | 65.4% | 59.8% | +5.6 |
| Agent 代码修复 | SWE-bench Verified | 80.8% | 80.9% | -0.1 |
| Agent 电脑操作 | OSWorld | 72.7% | 66.3% | +6.4 |
| Agent 工具使用(零售) | τ2-bench Retail | 91.9% | 88.9% | +3.0 |
| Agent 工具使用(电信) | τ2-bench Telecom | 99.3% | 98.2% | +1.1 |
| 规模化工具使用 | MCP Atlas | 59.5% | 62.3% | -2.8 |
| Agent 搜索 | BrowseComp | 84.0% | 67.8% | +16.2 |
| 跨学科推理(无工具) | Humanity’s Last Exam | 40.0% | 30.8% | +9.2 |
| 跨学科推理(有工具) | Humanity’s Last Exam | 53.1% | 43.4% | +9.7 |
| Agent 金融分析 | Finance Agent | 60.7% | 55.9% | +4.8 |
| 办公任务 | GDPval-AA Elo | 1606 | 1416 | +190 |
| 新问题求解 | ARC AGI 2 | 68.8% | 37.6% | +31.2 |
| 研究生级推理 | GPQA Diamond | 91.3% | 87.0% | +4.3 |
| 视觉推理(无工具) | MMMU Pro | 73.9% | 70.6% | +3.3 |
| 视觉推理(有工具) | MMMU Pro | 77.3% | 73.9% | +3.4 |
| 多语言问答 | MMMLU | 91.1% | 90.8% | +0.3 |
“提升强度”怎么判断
我把这次升级拆成四档:
- 第一档(非常大):
ARC AGI 2 +31.2、GDPval-AA +190 Elo、BrowseComp +16.2 - 第二档(明显):
Humanity's Last Exam +9.x、OSWorld +6.4、Terminal-Bench +5.6 - 第三档(稳步):
Finance +4.8、GPQA +4.3、MMMU +3.x、τ2-bench +1~3 - 持平/回落:
SWE-bench -0.1(几乎持平)、MCP Atlas -2.8(回落)
如果你的工作负载是“接需求 -> 查资料 -> 改代码 -> 跑工具 -> 出结论”,这次升级体感会比只看 SWE-bench 更明显。
跟 GPT-5.2、Gemini 3 Pro 对比,怎么读更实用
从官方总表看,Opus 4.6 在以下项领先明显:
- BrowseComp:
84.0%(高于 GPT-5.2 Pro 的77.9%) - Humanity’s Last Exam(with tools):
53.1%(高于 GPT-5.2 Pro 的50.0%) - GDPval-AA:
1606 Elo(高于 GPT-5.2 的1462)
也有落后项:
- GPQA Diamond:Opus 4.6
91.3%,GPT-5.2 Pro93.2% - MMMU Pro(with tools):Opus 4.6
77.3%,GPT-5.280.4%
结论很直接:4.6 的优势更偏“Agent 工作流”和“知识工作整活能力”,不是每个单项都第一。
PDF(System Card)里对这次升级的补充信息
Anthropic 在 2026 年 2 月的系统卡里,给了两个重要信号:
- 能力面:Opus 4.6 相比前代整体更强,多个能力达到行业 SOTA。
- 风险面:在 GUI computer-use 场景出现了更“主动”的行为(例如在少数测试中未经授权执行动作),因此部署时强调权限边界和监控。
他们同时说明:这次按 ASL-3 标准发布,且对高风险破坏行为的总体评估仍是低风险。

对 Claude Code 用户的实际建议
- 让它主导“长链路任务”,而不是只把它当补全工具。
- 在 GUI / 高权限环境里,必须加确认门(审批、只读、白名单工具)。
- 对关键操作保留可审计日志,避免“过度主动”变成线上事故。
- 对纯代码修复场景,不要只看模型版本,提示词和仓库上下文组织仍然是上限。
参考链接
以上。

IT资源栈
评论前必须登录!
立即登录 注册