Anthropic 放出 Opus 4 7 不只是更会写代码而是更像能把长任务跑完的模型

分类：Claude 行业趋势与 Agent 场景阅读() 评论(0)

Banner

写在前面

Anthropic 又发新模型了。

名字也很直接，Claude Opus 4.7。乍一看，这像是一次常规升级；但如果把这次放出来的基准、产品更新和安全动作连起来看，重点其实并不只是“又变强了一点”，而是它更像在往一类新能力上集中发力：把更长、更复杂、更少人工盯防的任务真正接过去。

这一版最值得看的，也不只是写代码分数更高了。它在长任务稳定性、自我校验、视觉分辨率、专业输出质量和安全边界上都一起往前推了一步。对开发者来说，这比单个 benchmark 漂亮更重要，因为真实工作流里最怕的从来不是模型不会答，而是它中途跑偏、细节漏掉，或者最后交出一个看上去像对、实际却没法落地的结果。

先说结论，Opus 4.7 强在 5 件事

先把最核心的变化压缩成一句话：Opus 4.7 不是只把“会写代码”这件事抬高了，而是把一整套更接近实际交付的能力一起往上推。

第一，是编码任务里更强的完成度。第二，是长链路任务里更好的稳定性。第三，是在输出前更愿意自己先做检查。第四，是专业场景下更稳的“品位”和判断。第五，是视觉能力明显升级之后，很多原来容易糊掉的任务终于有了更可靠的底子。

如果你只把它当成一个更强的聊天模型，这几个变化未必马上显得夸张；但如果你已经在拿模型跑工程任务、写应用、查文档、看截图、做审查，那 4.7 的升级方向会更容易被感知到。

Opus 4.7 最值得看的，不是会写代码，而是会把事情做完

这次最有分量的信号，是它在高难度编程和长任务上的表现开始更像一个能把事情推进到底的系统，而不是只会局部补全的模型。

CursorBench 上，Opus 4.7 从 58% 提到了 70%。在一个 93 项的编码任务测试里，整体又比上一代多抬了 13%。Notion 那边给出的多步工作流结果是提升 14%，工具调用出错率下降到原来的三分之二左右。Rakuten 的生产任务测试更直接，4.7 解决的实际问题数量达到 4.6 的 3 倍。

这些数字合在一起看，说明它补的不是某一个窄 benchmark，而是复杂任务里最容易卡人的几个环节：多步推进、工具调用、上下文保持和回退修正。

更关键的是，自我验证这件事被明显强化了。现在它在把结果交出来之前，会更主动地先检查自己的输出有没有问题，能修的先修，能补的先补。听起来只是多了一步，但对长任务特别重要。过去最大的麻烦往往不是它不会做，而是中途某一步悄悄跑偏，到最后才发现。现在这类任务里，它更像是会自己先做一轮内检，人工频繁盯流程的压力就能再往下掉一点。

像 Factory Droids 这类更长链路任务里，成功率提升能到 10% 到 15%；Bolt 在更长时间运行的建应用任务上，也有最高 10% 的提升。Vercel 提到它在系统级代码推理上更稳，Notion 则提到它第一次通过了“隐性需求”测试，也就是用户没明说、但模型本来就该意识到的要求。

说白了，这一版最重要的，不是模型会不会写一段更漂亮的函数，而是你把一个复杂目标交过去时，它越来越像真的能顺着链路把事情做完。

为什么会被说成 vibe coding 狂欢

所谓 vibe coding，真正让人上头的从来不是“几秒钟吐一段代码”，而是你用自然语言讲清楚需求，它能一路把结构、实现、调试和修补都往前推。

Opus 4.7 这次之所以容易被归到这条线上，核心就是它更适合那种边做边想、边做边修的任务。以前你让模型直接起一个项目，常见情况是前半段很猛，后半段开始漏细节；或者第一版看着不错，一跑就散。现在它在更长任务里的耐力、自检和工具使用稳定性一起抬上去之后，这类“把想法快速变成原型，再一路补到能交付”的流程自然就更顺了。

这也是为什么很多开发者会更关注生产反馈，而不只是通用分数。Rakuten、Notion、Bolt、Vercel 这类真实工作流里的提升，比单个答题 benchmark 更能说明问题。因为它们对应的不是“能不能答对一道题”，而是“能不能在真实工具链里把任务一路跑下去”。

如果你过去已经在用 Claude 做原型、改需求、修 bug、拉长链路自动化，这次 4.7 给人的感觉更像是：原来还得你时不时扶一下，现在很多时候它能自己多走几步了。

这次不只是 coding，更是 taste 升级

除了工程完成度，这次还有一个很容易被忽略、但其实很关键的维度，就是专业输出质量。

Harvey 的 BigLaw Bench 上，Opus 4.7 做到 90.9%。Databricks 那边，OfficeQA Pro 场景里的文档推理错误减少了 21%。这说明它补的不只是“推理更长”，还有“专业语境里判断更稳、表达更靠谱、结果更像成品”。

很多实际工作并不是纯代码题。它可能是一份技术方案、一段系统设计说明、一页演示文稿、一份混着表格和图示的文档，甚至是一类对风格、边界感和专业判断要求都更高的任务。模型如果只是会生成内容，不会判断什么该写、什么不该写，最后交付出来的东西还是会有很强的 AI 味；但如果它开始在结构、措辞和专业感上一起变稳，实用性就会明显上来。

这也是这次 4.7 看起来更像“能力底座升级”的原因。它不只是在代码生成上猛一点，而是在越来越多需要综合判断的任务里，把成品感往上顶了一截。

视觉升级，可能比很多人想象中更重要

这次还有一块特别容易低估：视觉能力。

Opus 4.7 现在支持长边 2576 像素、约 375 万像素的图像输入，分辨率相比以前提升了 3 倍以上。这个变化看起来像参数更新，实际上对很多开发任务都很关键。因为真实工作里，模型看的从来不只是纯文本，还包括截图、界面、图文混排文档、图表、报错面板和设计稿。

XBOW 给出的基准测试很夸张：在它的计算机视觉感知基准上，Opus 4.7 达到 98.5%，而 Opus 4.6 是 54.5%。这已经不是“看得稍微更清楚一点”，而是很多原来会糊、会漏、会认错细节的任务，现在终于有了更可靠的基础。

这件事为什么重要？因为一旦模型开始承担更长链路任务，它就不可能只处理文字。你让它读产品界面、看 IDE 报错、分析图表、理解演示文稿，它如果连细节都看不清，再强的推理也落不了地。现在分辨率和视觉理解一起上来之后，多模态任务的稳定性才真正有了底。

还有一个很少人会注意，但很重要的点：Anthropic 在控制它的危险能力

Opus 4.7 这次不只是把能力往上推，同时也把安全控制讲得更明确了。

Anthropic 提到了 Project Glasswing，也提到了 Claude Mythos Preview 和一整套 cyber safeguards。背后的意思并不难理解：模型越能独立完成复杂任务，它在高风险场景里的潜在破坏力也会同步上升。平台要继续放能力，就得同步加闸门。

这也是为什么现在越来越多更新不能只看“模型更强了没有”，还得一起看“它被允许在哪些边界内更强”。能力扩张和治理收紧，基本已经变成同一件事的两面。对普通开发者来说，这可能只是一些产品说明；但对平台和企业客户来说，这决定的是模型能不能被更大规模地放心接进真实系统。

换句话说，Anthropic 这次做的不是简单堆分数，而是在一边往前推自主执行能力，一边把危险能力的外溢风险压住。长期看，这可能比单个 benchmark 的涨幅更重要。

价格没涨，但含金量在涨

这次还有一个非常现实的好消息：价格没变。

Opus 4.7 的模型标识符是 claude-opus-4-7，输入每百万 token 5 美元，输出 25 美元，和 Opus 4.6 一样。今天已经能在 Claude 产品、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上使用。

API 侧这次还新增了 xhigh 推理等级，放在 high 和 max 之间；另外还有公开测试中的 task budgets，让模型在长任务里自己管理 token 消耗。Claude Code 这边加上了 /ultrareview，Pro 和 Max 用户有 3 次免费试用，Max 用户还拿到了更宽的 Auto Mode。

需要注意的是，tokenizer 更新之后，相同输入内容的 token 数量可能会变成原来的 1.0 到 1.35 倍。如果你的工作流对成本很敏感，这一轮升级最好还是看一下真实消耗，不要只盯着单价不变。

不过整体看，这次升级的迁移门槛并不高。价格没涨，接入方式没变，变化主要来自模型行为本身更强、更稳，也更愿意自己把任务往前推进。对已经在用 Claude 跑开发流程的团队来说，这种升级往往比“便宜一点”更值钱。

所以，Opus 4.7 到底是不是现在最强 AI 模型

如果只想要一个很短的判断，那答案大概是：至少在“长任务执行 + 编程 + 工具调用 + 多模态 + 自我验证”这条组合能力上，Opus 4.7 已经站到了最前面的一批，而且优势不再只是某一个小点领先。

它真正让人印象深的地方，不是简单刷高了几个榜，而是越来越像一个能在真实工作流里独立推进事情的模型。它会写代码，也会做检查；能接多步任务，也更能处理截图和图文混排内容；在专业输出上更稳，在安全边界上也更收紧。

这意味着接下来开发者真正要适应的，可能不只是“模型更强了”，而是“模型开始更像一个能自己干活的系统”。很多以前需要你一路盯着的流程，之后更可能变成：你给目标、它去推进、你只在关键节点接管。

Claude Code 到底该怎么理解

如果现在还把 Claude Code 理解成“终端里一个会聊天的 Claude”，这个理解已经有点落后了。

更准确地说，它正在变成一个围绕任务执行展开的自主编程 Agent。它不只是补全代码、解释报错，还能读仓库、搜文件、改代码、执行命令、做代码审查，并继续往自动模式、长任务执行和更少人工确认的方向扩展。

常见订阅里，Claude Pro 一般是 20 美元/月，Max 会更高；而 Opus 4.7 的 API 定价，这次仍然维持在每百万 token 输入 5 美元、输出 25 美元。

不过说实话，官方订阅对国内用户不太友好——需要海外信用卡，网络环境也得折腾。如果嫌麻烦想找个更省事的渠道，可以看看 Code80，真实订阅帐号转 API，换个 endpoint 就能直接用，体验跟官方一样。详情可以到官网了解：code.ai80.vip

常见问题

1. Opus 4.7 这次最核心的变化是什么？

最核心的不是某个 benchmark 又高了多少，而是它在复杂任务里的完成度更高了：更稳地调用工具、更能处理长链路任务、也更愿意在输出前自己先做检查。

2. 为什么这次很多人强调“会把事情做完”？

因为真实工作里最难的不是生成第一版，而是把多步任务一路推进到底。Opus 4.7 这次补强的正是稳定性、自检和长任务耐力，所以它更像能把完整流程接过去，而不只是给出一段局部答案。

3. 视觉升级为什么对开发者也重要？

因为开发任务并不只有代码。界面截图、IDE 报错、图表、文档、设计稿都需要模型看懂。分辨率和视觉感知能力上来之后，这类多模态任务才会更稳。

4. `xhigh` 是什么？

xhigh 是新增的推理档位，放在 high 和 max 之间，让开发者在推理深度、响应速度和 token 消耗之间做更细的平衡。

5. `/ultrareview` 更像什么？

更像一轮更深入的自动代码审查。它不是简单扫一眼 diff，而是尽量把 reviewer 级别会发现的问题提前挑出来。

6. 国内开发者如果想更方便地使用 Claude 怎么办？

如果走官方路线，通常要处理支付、账号和网络环境这些现实问题。国内用户可以通过 Code80 更方便地使用。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

兼容 Quick Share 且完全离线：跨平台剪贴板同步工具 Privli 限免

Privli 是一款主打“隐私至上”与“本地优先”的跨平台效率工具，集成了剪贴板同步与附近文件互传功能。该应用基于 Google 开源的 Nearby 协议构建，完全脱离 GMS（Google Mobile Services）依赖，且完美兼容原生 Android 的 Quick Share 标准，实现了与未安装该应用设备的直接交互。在数据安全层面，Privli 采取零收集策略，无需注册账号，全程在本地网络运行，甚至针对低版本 Android 系统摒弃了传统的整盘读写权限，仅通过系统选择器授权单一文件夹，实现了“零权限”文件存储。功能体验上，Privli 支持 Windows、macOS、Linux 及移动端的全平台无缝联动。其剪贴板同步功能允许用户在 PC 复制文本或截图后，直接在 Android 设备上粘贴，且支持后台自动接收。价格策略方面，除 iOS 采用一次性买断制（目前正处于限时免费状态）外，Linux、Android 及 Windows 版本均长期免费，macOS 用户也可通过 Homebrew 或直接下载 DMG 免费使用。这为注重隐私且跨设备办公的用户提供了一个无云端依赖的高效解决方案。

事件分析

Privli 的出现反映了当下科技领域对“本地优先”理念的回归与重视。在数据隐私日益受关注的背景下，利用 Google 开源的 Nearby 协议而非依赖传统的云端中转，不仅规避了服务器泄露风险，也绕开了对 GMS 服务的强制依赖，这为非原生 Android 生态或海外市场用户提供了新的连接方案。从技术实现看，其兼容 Quick Share 并简化 Android 存储权限的策略，展示了如何在尊重系统沙盒机制的同时提升用户体验。这类工具填补了不同操作系统（特别是 iOS 与 Android/PC 之间）间即时互传的生态空白，虽然无法完全改变操作系统厂商的封闭策略，但通过协议兼容性降低了跨生态协作的门槛。

💡 核心观点：Privli 借助开源 Nearby 协议打破生态壁垒，以“零权限”和“本地优先”重塑了跨平台数据互传的隐私标准。

原文链接：V2EX 分享发现

17小时前
开源利器：一键计算你的 AI 订阅与 API 每月开销

近日，一款专注于计算 AI 使用成本的轻量级工具在开发者社区引起关注。该工具旨在解决当前 AI 服务订阅分散、计费模式复杂导致的财务管理痛点。随着 ChatGPT、Claude 等服务的普及，用户往往同时持有多个付费订阅，难以直观掌握每月在 AI 辅助工具上的总支出。这款新工具提供了一个纯前端的解决方案，其核心功能包含两部分：一是针对常见的 AI 订阅服务（如各类会员制）进行勾选统计，帮助用户快速汇总订阅费用；二是针对专业开发者，接入了 OpenRouter 的实时价格接口。鉴于 OpenRouter 聚合了 300 多种模型，价格体系繁杂，该工具支持用户输入预估的 Token 数量，实时查询不同模型的调用成本，从而精准计算通过 API 调用大模型的实际花费。在技术实现上，该工具体现了极简主义与隐私优先的设计理念。整个应用被封装在一个单一的 HTML 文件中，完全不依赖后端服务器，不涉及用户注册或数据留存，所有计算逻辑均在用户本地浏览器中执行。这不仅保证了部署的便捷性，也从根本上杜绝了用户消费数据泄露的风险。

事件分析

从技术架构视角审视，采用单文件 HTML（Single File Component）形式分发应用，无需复杂的构建流程或后端数据库，展示了一种高效且安全的开源工具分发模式。这种“无服务器”架构在处理敏感数据（如个人消费习惯）时具有天然优势，符合当前技术界对隐私保护的硬性要求。从产业影响来看，随着大模型商业化落地的深入，AI 使用成本管理已从边缘问题转变为开发者和企业的核心关切。模型厂商众多、计费维度各异（订阅制、按 Token 计费等）造成了信息不对称。该工具通过聚合 OpenRouter 实时价格，实际上充当了跨模型的比价与成本监测窗口。这预示着 AI 工具市场正在从单纯的“功能竞赛”向“精细化运营”转型，未来针对 AI 资产管理的效能工具将成为生态中的重要补充。

💡 核心观点：随着 AI 使用成本激增，这种零后端的轻量化工具不仅解决了开发者费用统计的刚需，更折射出 AI 应用生态向精细化运营与隐私优先发展的必然趋势。

原文链接：V2EX 分享发现

17小时前
独立开发者打造 AI 大模型百科 Wiki，整理行业资料与发展历史

近日，一位专注于AI大模型行业的开发者发布了一款名为“HeyAIWiki”的综合性知识库站点，旨在通过系统化的整理解决当前行业信息碎片化的问题。该站点源于作者个人的日常学习与资料积累，涵盖了从大模型基础概念、技术演进历史到各类前沿工具的广泛内容。随着人工智能技术的快速迭代，大量的论文、开源项目及模型评测报告层出不穷，导致从业者面临巨大的信息筛选成本。HeyAIWiki 试图构建一个结构清晰、内容详实的知识导航，收录了包括主流模型架构、关键行业节点及实用开发工具在内的核心条目。对于关注芯片算力、自动驾驶及前沿科技的读者而言，该平台不仅是一个静态的查询工具，更是一个观察AI技术脉络与产业发展的动态窗口。通过整合分散在社区论坛、代码仓库及学术论文中的高价值信息，该Wiki有效降低了新人入行的门槛，也为资深工程师提供了一个复盘技术演进的参考坐标。

事件分析

从行业基础设施的角度来看，垂直领域的高质量知识聚合是AI技术普及与落地的重要推手。当前大模型领域存在严重的“信息过载”与“知识孤岛”现象，技术文档散落在各类平台，缺乏标准化的梳理。HeyAIWiki作为个人发起的开源向项目，其核心价值在于通过人工筛选提升了信噪比，弥补了通用搜索引擎在专业深度上的不足。这种基于社区贡献的知识库模式，能够快速反映最新的技术趋势，如Agent架构、MoE训练等前沿话题。它不仅服务于开发者，也为产业研究者提供了清晰的宏观视角，有助于推动技术认知的平民化，是构建AI技术生态中不可或缺的一环。

💡 核心观点：在信息爆炸的AI时代，高质量的结构化知识整理能力已成为稀缺资源，此类百科站点是降低技术认知门槛的必要基础设施。

原文链接：V2EX 分享发现

17小时前
AI编程实战对比：Opus长上下文烧钱失效，GPT 5.5低价搞定难题

一位开发者在技术社区分享了使用不同大模型解决 APP 爬虫风控问题的实战经历。该开发者最初尝试使用 Anthropic 的 Opus 模型（文中标注为 Opus 4.8），先后启用了 200k 和 1M 的上下文窗口。然而，尽管累计消耗了约 35 美元的额度，Opus 模型仍未能解决问题，且表现出对开发者验证结果的“固执”怀疑，导致最终失败。随后，开发者切换至 OpenAI 的 GPT 系列模型（文中称为 GPT 5.5）。结果显示，GPT 模型在首次尝试中便从开源项目中精准定位了正确的测试方案，总计仅花费 2.9 美元便完成了包括代码测试和验证在内的全部任务。这一案例在技术圈引发了关于长上下文实际效用、模型性格及 AI 辅助编程成本效益的广泛讨论。

事件分析

该案例直观地折射出当前 AI 编程工具在应用层面的几个关键痛点与误区。首先是“长上下文陷阱”，虽然 1M 的上下文窗口理论上能容纳更多代码，但在处理具体逻辑修正时，大上下文反而可能导致模型注意力涣散或产生更顽固的幻觉，并非解决复杂问题的银弹。其次是模型行为的“性格差异”，Opus 表现出的“固执”可能源于其对事实核查的过度对齐，反而在工程调试中成了阻碍，而 GPT 5.5 展现出的顺从性和泛化能力反而更符合开发者的实际需求。最后是成本与收益的非线性关系，昂贵的顶尖模型并不保证产出比更好，在具体任务中，模型的推理方向与性价比往往比参数量更为关键。

💡 核心观点：长上下文窗口不等于解决力，AI 编程的实战价值取决于精准推理与成本控制，而非盲目堆砌参数。

原文链接：Linux.do

17小时前
UCCL-EP开源：支持任意网卡实现专家并行，移除GPU通信依赖

近日，一项名为 UCCL-EP 的开源技术项目在技术社区引发关注。该项目提出了一种创新的通信协议，旨在优化大模型训练中的“专家并行”。在传统的大规模分布式训练，特别是 Mixture of Experts (MoE) 架构中，高效的 All-to-All 通信往往依赖于昂贵的特定网卡或 GPU 主动发起的通信机制。UCCL-EP 的核心价值在于打破了这一硬件限制，允许在任何标准网卡（NIC）上实现类似 DeepEP 的高效通信模式，并彻底消除了由 GPU 发起通信的需求。这一改进不仅释放了 GPU 的计算资源，使其专注于核心的张量运算，还通过降低网络硬件要求，显著降低了高性能 AI 训练集群的构建成本。该技术为构建低成本、高吞吐量的 AI 基础设施提供了新的可行性路径。

事件分析

从技术架构角度看，UCCL-EP 试图通过软件层优化解耦高性能计算与特定硬件生态。移除“GPU发起通信”意味着将通信调度权转移至CPU或智能网卡，这对于降低大规模 MoE 模型训练的延迟至关重要。产业层面，这一进展有助于打破 NVIDIA 等厂商在网络通信层的技术垄断，使企业能够利用通用以太网硬件构建高性能集群。若该方案能持续迭代并稳定支持主流训练框架，未来可能成为云厂商降低大模型算力成本的关键组件。

💡 核心观点：通过软件层解耦通信与硬件绑定，该技术有望大幅降低MoE大模型训练的硬件门槛与成本。

原文链接：Hacker News

18小时前
极客实测有道词典笔A7：通过提示词注入破解AI助手限制

近日，社区技术爱好者对新款有道词典笔A7进行了深入的技术实测。作为搭载了大模型技术的智能硬件，A7试图通过“AI智能问答”功能提升用户体验，但实际测试暴露了其在性能优化与安全防护上的诸多缺陷。在交互层面，测试发现该设备存在UI逻辑割裂的问题，AI功能不仅强制依赖语音输入、屏蔽文字交互，且不支持对话历史的连续性，严重影响使用体验。在硬件层面，A7在运行大模型时发热严重，且缺乏联网检索能力，显示出边缘端算力与散热的瓶颈。本次测试的核心发现在于安全漏洞的挖掘。测试者利用设备查词时的AI解释功能，通过分析其返回的文本结构，推断出后台使用了固定的提示词模板。随后，测试者利用输入法在查询内容中拼接了包含“越狱”指令的特殊字符，成功实施了提示词注入攻击。结果显示，尽管部分模型坚持了预设的人设限制，但代号为“ds”的模型在接收到拼接指令后，成功突破了“家庭教师”的身份限制并回答了相关问题。此外，测试者还通过观察思维链（CoT），确认了系统底层存在禁止讨论编程内容的安全限制。这一研究揭示了硬件预置大模型应用在防御提示词注入方面的脆弱性。

事件分析

此次事件从侧面反映了AI硬件落地过程中的技术难点与安全隐忧。从硬件性能来看，词典笔A7严重的发热现象说明在端侧设备上部署大模型时，功耗与算力的平衡依然是巨大挑战，这导致厂商不得不通过限制功能（如禁用文本输入、取消联网搜索）来勉强维持运行。从软件架构与安全角度分析，测试者能够轻易利用提示词注入绕过限制，暴露了该设备在开发时采用了极不严谨的字符串拼接方式来构建系统提示词。这种低成本的实现方式缺乏对用户输入的深层清洗，容易被简单的语法结构欺骗，从而泄露系统指令或输出违规内容。这表明，当前的AI硬件竞赛中，厂商往往急于堆砌大模型功能，却忽视了安全工程的重要性。未来，随着AI硬件的普及，如何构建对抗攻击鲁棒的提示词工程，将是保障产品安全的关键。

💡 核心观点：边缘AI硬件不仅受限于算力与散热，简陋的提示词工程更使其极易沦为安全防护的突破口。

原文链接：Linux.do

18小时前