写在前面
Anthropic 又发新模型了。
名字也很直接,Claude Opus 4.7。乍一看,这像是一次常规升级;但如果把这次放出来的基准、产品更新和安全动作连起来看,重点其实并不只是“又变强了一点”,而是它更像在往一类新能力上集中发力:把更长、更复杂、更少人工盯防的任务真正接过去。
这一版最值得看的,也不只是写代码分数更高了。它在长任务稳定性、自我校验、视觉分辨率、专业输出质量和安全边界上都一起往前推了一步。对开发者来说,这比单个 benchmark 漂亮更重要,因为真实工作流里最怕的从来不是模型不会答,而是它中途跑偏、细节漏掉,或者最后交出一个看上去像对、实际却没法落地的结果。
先说结论,Opus 4.7 强在 5 件事
先把最核心的变化压缩成一句话:Opus 4.7 不是只把“会写代码”这件事抬高了,而是把一整套更接近实际交付的能力一起往上推。
第一,是编码任务里更强的完成度。第二,是长链路任务里更好的稳定性。第三,是在输出前更愿意自己先做检查。第四,是专业场景下更稳的“品位”和判断。第五,是视觉能力明显升级之后,很多原来容易糊掉的任务终于有了更可靠的底子。
如果你只把它当成一个更强的聊天模型,这几个变化未必马上显得夸张;但如果你已经在拿模型跑工程任务、写应用、查文档、看截图、做审查,那 4.7 的升级方向会更容易被感知到。
Opus 4.7 最值得看的,不是会写代码,而是会把事情做完
这次最有分量的信号,是它在高难度编程和长任务上的表现开始更像一个能把事情推进到底的系统,而不是只会局部补全的模型。
CursorBench 上,Opus 4.7 从 58% 提到了 70%。在一个 93 项的编码任务测试里,整体又比上一代多抬了 13%。Notion 那边给出的多步工作流结果是提升 14%,工具调用出错率下降到原来的三分之二左右。Rakuten 的生产任务测试更直接,4.7 解决的实际问题数量达到 4.6 的 3 倍。
这些数字合在一起看,说明它补的不是某一个窄 benchmark,而是复杂任务里最容易卡人的几个环节:多步推进、工具调用、上下文保持和回退修正。
更关键的是,自我验证这件事被明显强化了。现在它在把结果交出来之前,会更主动地先检查自己的输出有没有问题,能修的先修,能补的先补。听起来只是多了一步,但对长任务特别重要。过去最大的麻烦往往不是它不会做,而是中途某一步悄悄跑偏,到最后才发现。现在这类任务里,它更像是会自己先做一轮内检,人工频繁盯流程的压力就能再往下掉一点。
像 Factory Droids 这类更长链路任务里,成功率提升能到 10% 到 15%;Bolt 在更长时间运行的建应用任务上,也有最高 10% 的提升。Vercel 提到它在系统级代码推理上更稳,Notion 则提到它第一次通过了“隐性需求”测试,也就是用户没明说、但模型本来就该意识到的要求。
说白了,这一版最重要的,不是模型会不会写一段更漂亮的函数,而是你把一个复杂目标交过去时,它越来越像真的能顺着链路把事情做完。
为什么会被说成 vibe coding 狂欢
所谓 vibe coding,真正让人上头的从来不是“几秒钟吐一段代码”,而是你用自然语言讲清楚需求,它能一路把结构、实现、调试和修补都往前推。
Opus 4.7 这次之所以容易被归到这条线上,核心就是它更适合那种边做边想、边做边修的任务。以前你让模型直接起一个项目,常见情况是前半段很猛,后半段开始漏细节;或者第一版看着不错,一跑就散。现在它在更长任务里的耐力、自检和工具使用稳定性一起抬上去之后,这类“把想法快速变成原型,再一路补到能交付”的流程自然就更顺了。
这也是为什么很多开发者会更关注生产反馈,而不只是通用分数。Rakuten、Notion、Bolt、Vercel 这类真实工作流里的提升,比单个答题 benchmark 更能说明问题。因为它们对应的不是“能不能答对一道题”,而是“能不能在真实工具链里把任务一路跑下去”。
如果你过去已经在用 Claude 做原型、改需求、修 bug、拉长链路自动化,这次 4.7 给人的感觉更像是:原来还得你时不时扶一下,现在很多时候它能自己多走几步了。
这次不只是 coding,更是 taste 升级
除了工程完成度,这次还有一个很容易被忽略、但其实很关键的维度,就是专业输出质量。
Harvey 的 BigLaw Bench 上,Opus 4.7 做到 90.9%。Databricks 那边,OfficeQA Pro 场景里的文档推理错误减少了 21%。这说明它补的不只是“推理更长”,还有“专业语境里判断更稳、表达更靠谱、结果更像成品”。
很多实际工作并不是纯代码题。它可能是一份技术方案、一段系统设计说明、一页演示文稿、一份混着表格和图示的文档,甚至是一类对风格、边界感和专业判断要求都更高的任务。模型如果只是会生成内容,不会判断什么该写、什么不该写,最后交付出来的东西还是会有很强的 AI 味;但如果它开始在结构、措辞和专业感上一起变稳,实用性就会明显上来。
这也是这次 4.7 看起来更像“能力底座升级”的原因。它不只是在代码生成上猛一点,而是在越来越多需要综合判断的任务里,把成品感往上顶了一截。
视觉升级,可能比很多人想象中更重要
这次还有一块特别容易低估:视觉能力。
Opus 4.7 现在支持长边 2576 像素、约 375 万像素的图像输入,分辨率相比以前提升了 3 倍以上。这个变化看起来像参数更新,实际上对很多开发任务都很关键。因为真实工作里,模型看的从来不只是纯文本,还包括截图、界面、图文混排文档、图表、报错面板和设计稿。
XBOW 给出的基准测试很夸张:在它的计算机视觉感知基准上,Opus 4.7 达到 98.5%,而 Opus 4.6 是 54.5%。这已经不是“看得稍微更清楚一点”,而是很多原来会糊、会漏、会认错细节的任务,现在终于有了更可靠的基础。
这件事为什么重要?因为一旦模型开始承担更长链路任务,它就不可能只处理文字。你让它读产品界面、看 IDE 报错、分析图表、理解演示文稿,它如果连细节都看不清,再强的推理也落不了地。现在分辨率和视觉理解一起上来之后,多模态任务的稳定性才真正有了底。
还有一个很少人会注意,但很重要的点:Anthropic 在控制它的危险能力
Opus 4.7 这次不只是把能力往上推,同时也把安全控制讲得更明确了。
Anthropic 提到了 Project Glasswing,也提到了 Claude Mythos Preview 和一整套 cyber safeguards。背后的意思并不难理解:模型越能独立完成复杂任务,它在高风险场景里的潜在破坏力也会同步上升。平台要继续放能力,就得同步加闸门。
这也是为什么现在越来越多更新不能只看“模型更强了没有”,还得一起看“它被允许在哪些边界内更强”。能力扩张和治理收紧,基本已经变成同一件事的两面。对普通开发者来说,这可能只是一些产品说明;但对平台和企业客户来说,这决定的是模型能不能被更大规模地放心接进真实系统。
换句话说,Anthropic 这次做的不是简单堆分数,而是在一边往前推自主执行能力,一边把危险能力的外溢风险压住。长期看,这可能比单个 benchmark 的涨幅更重要。
价格没涨,但含金量在涨
这次还有一个非常现实的好消息:价格没变。
Opus 4.7 的模型标识符是 claude-opus-4-7,输入每百万 token 5 美元,输出 25 美元,和 Opus 4.6 一样。今天已经能在 Claude 产品、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上使用。
API 侧这次还新增了 xhigh 推理等级,放在 high 和 max 之间;另外还有公开测试中的 task budgets,让模型在长任务里自己管理 token 消耗。Claude Code 这边加上了 /ultrareview,Pro 和 Max 用户有 3 次免费试用,Max 用户还拿到了更宽的 Auto Mode。
需要注意的是,tokenizer 更新之后,相同输入内容的 token 数量可能会变成原来的 1.0 到 1.35 倍。如果你的工作流对成本很敏感,这一轮升级最好还是看一下真实消耗,不要只盯着单价不变。
不过整体看,这次升级的迁移门槛并不高。价格没涨,接入方式没变,变化主要来自模型行为本身更强、更稳,也更愿意自己把任务往前推进。对已经在用 Claude 跑开发流程的团队来说,这种升级往往比“便宜一点”更值钱。
所以,Opus 4.7 到底是不是现在最强 AI 模型
如果只想要一个很短的判断,那答案大概是:至少在“长任务执行 + 编程 + 工具调用 + 多模态 + 自我验证”这条组合能力上,Opus 4.7 已经站到了最前面的一批,而且优势不再只是某一个小点领先。
它真正让人印象深的地方,不是简单刷高了几个榜,而是越来越像一个能在真实工作流里独立推进事情的模型。它会写代码,也会做检查;能接多步任务,也更能处理截图和图文混排内容;在专业输出上更稳,在安全边界上也更收紧。
这意味着接下来开发者真正要适应的,可能不只是“模型更强了”,而是“模型开始更像一个能自己干活的系统”。很多以前需要你一路盯着的流程,之后更可能变成:你给目标、它去推进、你只在关键节点接管。
Claude Code 到底该怎么理解
如果现在还把 Claude Code 理解成“终端里一个会聊天的 Claude”,这个理解已经有点落后了。
更准确地说,它正在变成一个围绕任务执行展开的自主编程 Agent。它不只是补全代码、解释报错,还能读仓库、搜文件、改代码、执行命令、做代码审查,并继续往自动模式、长任务执行和更少人工确认的方向扩展。
常见订阅里,Claude Pro 一般是 20 美元/月,Max 会更高;而 Opus 4.7 的 API 定价,这次仍然维持在每百万 token 输入 5 美元、输出 25 美元。
不过说实话,官方订阅对国内用户不太友好——需要海外信用卡,网络环境也得折腾。如果嫌麻烦想找个更省事的渠道,可以看看 Code80,真实订阅帐号转 API,换个 endpoint 就能直接用,体验跟官方一样。详情可以到官网了解:code.ai80.vip
常见问题
1. Opus 4.7 这次最核心的变化是什么?
最核心的不是某个 benchmark 又高了多少,而是它在复杂任务里的完成度更高了:更稳地调用工具、更能处理长链路任务、也更愿意在输出前自己先做检查。
2. 为什么这次很多人强调“会把事情做完”?
因为真实工作里最难的不是生成第一版,而是把多步任务一路推进到底。Opus 4.7 这次补强的正是稳定性、自检和长任务耐力,所以它更像能把完整流程接过去,而不只是给出一段局部答案。
3. 视觉升级为什么对开发者也重要?
因为开发任务并不只有代码。界面截图、IDE 报错、图表、文档、设计稿都需要模型看懂。分辨率和视觉感知能力上来之后,这类多模态任务才会更稳。
4. xhigh 是什么?
xhigh 是新增的推理档位,放在 high 和 max 之间,让开发者在推理深度、响应速度和 token 消耗之间做更细的平衡。
5. /ultrareview 更像什么?
更像一轮更深入的自动代码审查。它不是简单扫一眼 diff,而是尽量把 reviewer 级别会发现的问题提前挑出来。
6. 国内开发者如果想更方便地使用 Claude 怎么办?
如果走官方路线,通常要处理支付、账号和网络环境这些现实问题。国内用户可以通过 Code80 更方便地使用。









评论前必须登录!
立即登录 注册