Claude Opus 4 7 上线了 代码 文档和长任务一起往前冲 Claude Code 也顺手补上自动审查

Banner

写在前面

Anthropic 在 4 月 16 日上线了 Claude Opus 4.7。

这一版最值得看的,不只是“又发了个新模型”,而是它把几项真正影响生产使用的能力一起往前推了:代码能力、文档推理、视觉分辨率、长文本理解、工具调用稳定性,以及更高强度的推理档位。

更关键的是,价格没变。输入每百万 token 5 美元,输出 25 美元,和 Opus 4.6 一样。对已经在用 Claude 的团队来说,这意味着升级门槛并不高,但能力上限明显被重新抬了一次。


先看最扎眼的一组数字

这次最先跳出来的一批 benchmark,几乎都不是小幅抬升。

在 SWE-bench Pro 这类高难度智能体编码测试上,Opus 4.7 拿到 64.3%,Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。在 SWE-bench Verified 上,4.7 是 87.6%,4.6 是 80.8%。

文档推理这边提升更夸张。OfficeQA Pro 上,Opus 4.7 达到 80.6%,而 4.6 是 57.1%,GPT-5.4 是 51.1%。视觉推理 CharXiv 无工具模式下,4.7 是 82.1%,4.6 是 69.1%。知识工作 Elo 评分 GDPVal-AA 上,4.7 也从 1619 提到了 1753。

如果把这几项放在一起看,结论其实很直接:Anthropic 这次不是只把某一条短板补了一下,而是把真实工作流里最常碰到的几块一起往上抬。


编码能力这次不是“微调”,而是明显跳档

SWE-bench Pro 之所以重要,是因为它测的不是刷题式代码生成,而是真实仓库里的工程问题:定位 bug、理解依赖、写修复、跑测试。

Opus 4.7 在这个维度从 53.4% 提到 64.3%,已经不是统计波动,而是比较明确的一次跃迁。SWE-bench Verified 也从 80.8% 提到 87.6%。

更有参考价值的是生产场景数据。CursorBench 上,Opus 4.7 达到 70%,而 4.6 是 58%。Rakuten 的生产代码库测试里,4.7 解决的实际工程问题数量达到 4.6 的 3 倍。

这组数据背后的含义很实际:原来你把一个复杂 issue 扔给模型,大概率还得自己跟着补洞;现在有更多任务开始接近“能独立完成到可交付”的状态。

不过提升主要集中在高难度任务。简单提示词场景里,4.7 和前代并不是处处拉开大差距;但一旦进入大型代码库、多步推理、跨文件依赖追踪和回归风险控制,优势就会被迅速放大。

这也是 Anthropic 这次同步加上 xhigh 推理档位的原因之一。它瞄准的不是更快出字,而是让模型在复杂任务里多走几步、少跑偏一些。


视觉分辨率拉高后,很多原来“不够稳”的任务开始有了底子

Opus 4.7 的图像输入上限提到长边 2576 像素,约 375 万像素,是之前 Claude 模型的 3 倍以上。

这个变化看起来像参数更新,实际影响很直接。像 Computer Use、界面导航、看 IDE 报错、读技术图表、分析截图和 PDF 条款这类任务,过去的主要问题往往不是“不会推理”,而是“看不清”。

ScreenSpot-Pro 上,高分辨率版本的 Opus 4.7 在有工具模式下达到 87.6%,低分辨率版本是 85.9%,而 Opus 4.6 是 83.1%;无工具模式下差距更明显,4.7 高分辨率 79.5%,4.6 只有 57.7%。

这意味着很多原来卡在“看不清小字、识别不准按钮、图表细节发虚”的任务,现在终于开始有了比较可靠的基础。对于依赖 GUI 操作和截图理解的场景,这种提升会比单纯的文字 benchmark 更容易被感知到。

视觉推理 CharXiv 的提升,也基本是同一条逻辑:分辨率上来后,模型读图不再只是大概看轮廓,而是开始能真正吃下结构和细节。


文档推理这次可能比写代码更值得企业盯着看

OfficeQA Pro 上,Opus 4.7 从 57.1% 跳到 80.6%,把 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9% 一起甩开。

这件事的重要性,可能不输编码能力。因为企业里大量高频工作本来就不是写代码,而是读合同、看财报、拆 PPT、整理会议纪要、分析 RFP 和审计材料。

80.6% 这个数字不意味着模型可以直接替代法务、财务或分析师,但它意味着很多初筛、标记、比对、摘要和风险定位工作,已经开始具备更高的可用性。对企业客户来说,这类文档任务的规模往往比代码任务还大,真正能省下来的人工也更多。

如果你所在的团队本来就有大量 Office 文档处理流程,这次 4.7 比起“更会写代码”这件事,可能更值得优先评估。


长文本理解也在往“能维持内容地图”这件事上推进

长上下文这次的提升,重点不只是窗口更大,而是模型对超长内容的追踪能力更稳了。

GraphWalks 的 BFS 1M 场景里,Opus 4.7 达到 58.6%,4.6 是 41.2%,直接高出 17 个百分点;Parents 1M 场景里,4.7 也从 71.1% 提到 75.1%。

这类测试考的不是简单检索,而是在极长文本里持续维持上下文,跟踪一整条推理链。对真实使用来说,它更接近“让模型读完一大堆尽调材料后给出风险梳理”或者“让模型理解一个超大代码库后继续跨文件追踪问题”的能力。

GDPVal-AA 的 Elo 评分也给出了类似信号:4.7 达到 1753,高于 GPT-5.4 的 1674,4.6 则是 1619。

这说明 Opus 4.7 不只是“能塞更多文本进去”,而是在慢慢变得更适合处理那种需要长期保持全局视角的知识工作。


新功能不算多,但都很贴近实际使用

这次新增能力里,开发者最值得关注的主要有三项。

第一项是 xhigh 推理档位,放在 highmax 之间。它的意义不是再造一个“更猛模式”,而是让开发者在推理深度和 token 消耗之间多一个更细的中间层。

第二项是还在测试中的 Task Budgets。它允许你给 API 调用设定 token 预算,让模型自己控制推理深度和输出长度。对成本敏感的产品场景来说,这比单纯追求最强效果更实用。

第三项是 Claude Code 的更新。新增了 /ultrareview 指令,可以跑更深入的自动代码审查;另外 Max 用户拿到了 Auto Mode,让 Claude Code 可以在无需逐步手动确认的情况下连续执行操作。

这里面最值得长期盯着看的,其实是 Auto Mode。因为它代表的不是单个功能点,而是一个更明确的方向:Claude 正在从“每做一步都要你点确认”的助手,慢慢往“可以自己把一串任务跑完”的 Agent 形态走。

另外还有一点需要注意:Anthropic 明确提到,Opus 4.7 的指令遵从能力有实质性提升。这是好事,但也意味着如果你以前写给 4.6 的 prompt 比较模糊、靠模型自己补全,切到 4.7 后最好跑一遍回归测试。


价格没变,迁移门槛反而很低

Opus 4.7 的 API 标识符是 claude-opus-4-7,输入每百万 token 5 美元,输出 25 美元,和 Opus 4.6 保持一致。

目前已经可以在 Claude 产品、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Azure AI Foundry 上使用。

这意味着对已经集成 Opus 4.6 的团队来说,升级动作本身并不重:切换模型标识符,跑一遍测试,再看效果提升是否符合你的任务类型就行。真正需要额外注意的,不是价格,而是行为变化——特别是更强的指令遵从可能会让旧 prompt 的输出风格发生偏移。


真正更值得盯着看的,是 Anthropic 现在补能力的方式

这次最有意思的地方,不是某个 benchmark 数字本身,而是能力提升分布得很“均衡”:代码、文档、视觉、长文本、工具调用、自动审查、自主执行,全都在往更接近真实工作流的方向补。

这不像一次只冲着某个榜单去的更新,更像是在给长期任务执行、Agent 工作流和企业级使用场景打一层更厚的地基。底座越稳,后面能搭起来的产品和流程就越多。

如果你平时主要把 Claude 当聊天模型,这次更新当然也有提升;但如果你已经在用它跑工程任务、读文档、做审查、跑自动化流程,那 4.7 的价值会更明显。


Claude Code 到底该怎么理解

如果现在还把 Claude Code 理解成“终端里一个会聊天的 Claude”,这个理解已经有点落后了。

更准确地说,它正在变成一个围绕任务执行展开的自主编程 Agent。它不只是补全代码、解释报错,还能读仓库、搜文件、改代码、执行命令、做代码审查,并继续往自动模式、长任务执行和更少人工确认的方向扩展。

常见订阅里,Claude Pro 一般是 20 美元/月,Max 会更高;而 Opus 4.7 的 API 定价,这次仍然维持在每百万 token 输入 5 美元、输出 25 美元。

不过说实话,官方订阅对国内用户不太友好——需要海外信用卡,网络环境也得折腾。如果嫌麻烦想找个更省事的渠道,可以看看 Code80,真实订阅帐号转 API,换个 endpoint 就能直接用,体验跟官方一样。详情可以到官网了解:code.ai80.vip


常见问题

1. Claude Opus 4.7 这次最明显的提升是什么?

最明显的是它不是只提升一项,而是把代码能力、文档推理、视觉理解和长文本处理一起往上推,尤其在高难度任务上的进步更明显。

2. 为什么很多人会特别关注 OfficeQA Pro?

因为这代表的不是小众 benchmark,而是企业里非常高频的文档处理工作。合同、财报、PPT、审计材料这类任务量很大,模型在这里的提升会直接影响实际落地价值。

3. xhighmax 有什么区别?

xhigh 更像 highmax 之间的中间档,推理强度更高,但 token 消耗通常比 max 更克制,适合那些需要更认真思考、但又不想把成本拉满的任务。

4. Claude Code 的 /ultrareview 更像什么?

更像一轮更深入的自动代码审查。它不是简单扫一眼 diff,而是尽量把 reviewer 会挑出来的问题提前找出来。

5. Auto Mode 为什么值得关注?

因为它代表的是一个更大的方向:从“每一步都要你确认”走向“模型可以自己把整串任务跑完”。这比单项 benchmark 提升更接近真正的自动化工作流。

6. 国内开发者如果想更方便地使用 Claude 怎么办?

如果走官方路线,通常要处理支付、账号和网络环境这些现实问题。国内用户可以通过 Code80 更方便地使用。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册