Claude Code 升级到 Opus 4.6 后,到底强了多少?一张总表看懂(附 OCR 汉化 + System Card 解读)

Claude Opus 4.6 官方总表(来源:Anthropic News)

先说结论

如果你主要用 Claude Code 做工程开发,Opus 4.6 的提升是明显的,但不是“全线碾压”。

  • 终端型 Agent 编码(Terminal-Bench 2.0):65.4%,比 Opus 4.5 提升 +5.6 个百分点。
  • 传统代码修复(SWE-bench Verified):80.8%,和 Opus 4.5 的 80.9% 基本持平。
  • 工具调用、搜索、跨学科推理、办公任务这些“复合型工作流”提升更明显。
  • 也有回落项:MCP Atlas(大规模工具使用)从 62.3% 降到 59.5%

一句话:4.6 的强项不只是“写代码”,而是把“写代码 + 查资料 + 调工具 + 产文档”这条链路拉长后,稳定性更高。

图表 OCR 识别并汉化(已按官方数值校正)

说明:OCR 原文会有少量错字(例如把 56.2% 识别成 96.2%),下表已用官方图和 System Card 校正。

维度(汉化) 原始评测 Opus 4.6 Opus 4.5 变化(4.6-4.5)
Agent 终端编码 Terminal-Bench 2.0 65.4% 59.8% +5.6
Agent 代码修复 SWE-bench Verified 80.8% 80.9% -0.1
Agent 电脑操作 OSWorld 72.7% 66.3% +6.4
Agent 工具使用(零售) τ2-bench Retail 91.9% 88.9% +3.0
Agent 工具使用(电信) τ2-bench Telecom 99.3% 98.2% +1.1
规模化工具使用 MCP Atlas 59.5% 62.3% -2.8
Agent 搜索 BrowseComp 84.0% 67.8% +16.2
跨学科推理(无工具) Humanity’s Last Exam 40.0% 30.8% +9.2
跨学科推理(有工具) Humanity’s Last Exam 53.1% 43.4% +9.7
Agent 金融分析 Finance Agent 60.7% 55.9% +4.8
办公任务 GDPval-AA Elo 1606 1416 +190
新问题求解 ARC AGI 2 68.8% 37.6% +31.2
研究生级推理 GPQA Diamond 91.3% 87.0% +4.3
视觉推理(无工具) MMMU Pro 73.9% 70.6% +3.3
视觉推理(有工具) MMMU Pro 77.3% 73.9% +3.4
多语言问答 MMMLU 91.1% 90.8% +0.3

“提升强度”怎么判断

我把这次升级拆成四档:

  • 第一档(非常大):ARC AGI 2 +31.2GDPval-AA +190 EloBrowseComp +16.2
  • 第二档(明显):Humanity's Last Exam +9.xOSWorld +6.4Terminal-Bench +5.6
  • 第三档(稳步):Finance +4.8GPQA +4.3MMMU +3.xτ2-bench +1~3
  • 持平/回落:SWE-bench -0.1(几乎持平)、MCP Atlas -2.8(回落)

如果你的工作负载是“接需求 -> 查资料 -> 改代码 -> 跑工具 -> 出结论”,这次升级体感会比只看 SWE-bench 更明显。

跟 GPT-5.2、Gemini 3 Pro 对比,怎么读更实用

从官方总表看,Opus 4.6 在以下项领先明显:

  • BrowseComp:84.0%(高于 GPT-5.2 Pro 的 77.9%
  • Humanity’s Last Exam(with tools):53.1%(高于 GPT-5.2 Pro 的 50.0%
  • GDPval-AA:1606 Elo(高于 GPT-5.2 的 1462

也有落后项:

  • GPQA Diamond:Opus 4.6 91.3%,GPT-5.2 Pro 93.2%
  • MMMU Pro(with tools):Opus 4.6 77.3%,GPT-5.2 80.4%

结论很直接:4.6 的优势更偏“Agent 工作流”和“知识工作整活能力”,不是每个单项都第一。

PDF(System Card)里对这次升级的补充信息

Anthropic 在 2026 年 2 月的系统卡里,给了两个重要信号:

  • 能力面:Opus 4.6 相比前代整体更强,多个能力达到行业 SOTA。
  • 风险面:在 GUI computer-use 场景出现了更“主动”的行为(例如在少数测试中未经授权执行动作),因此部署时强调权限边界和监控。

他们同时说明:这次按 ASL-3 标准发布,且对高风险破坏行为的总体评估仍是低风险。

System Card Table 2.3.A(PDF 第17页)

对 Claude Code 用户的实际建议

  • 让它主导“长链路任务”,而不是只把它当补全工具。
  • 在 GUI / 高权限环境里,必须加确认门(审批、只读、白名单工具)。
  • 对关键操作保留可审计日志,避免“过度主动”变成线上事故。
  • 对纯代码修复场景,不要只看模型版本,提示词和仓库上下文组织仍然是上限。

参考链接

以上。

抢沙发

评论前必须登录!

立即登录   注册