一天之内两大编程 Agent 同时开卷：GPT-5.3 Codex 和 Claude Opus 4.6，到底谁更值得你押注？

分类：横评与选型阅读() 评论(0)

Banner

写在前面

如果你最近还把 AI 编程理解成“补全几行代码”，那 2026 年 2 月 5 日这一天，可能就是一个分水岭。

同一天里，OpenAI 放出了 GPT-5.3 Codex，Anthropic 推出了 Claude Opus 4.6。重点不只是两个新模型一起发布，而是它们都在把“AI 写代码”往更激进的方向推：不再满足于帮你补全，而是开始接手调试、执行命令、跨文件协作，甚至像一支小团队那样分工干活。

问题也随之变了。现在真正该问的，已经不是“哪个模型更聪明”，而是：你需要的是一个擅长落地工程任务的执行型 Agent，还是一个更适合长上下文推理和多 Agent 协作的战略型 Agent？

逐行手写代码的时代，正在被重新定义

这波更新最值得警惕的一点，是两家公司都在公开把 AI 从“助手”往“协作者”甚至“独立工作者”推进。

OpenAI 对 GPT-5.3 Codex 的定位，不再是传统 IDE 里的补全模型，而是可以操作电脑、调试代码、部署应用、写产品文档的专业 Agent。Anthropic 那边也一样，Claude Opus 4.6 不只是继续堆模型能力，而是把 100 万 token 上下文和 Agent Teams 一起端出来，明显是在押注更复杂、更长期的软件协作流程。

这意味着什么？很简单：以后拉开差距的，不只是“谁会不会写 prompt”，而是谁先把 AI 接进真实工作流。

以前很多工程任务卡在人要自己来回切上下文：读代码、看报错、查文档、改文件、跑命令、再回头修。现在新一代编程 Agent 的目标，是把这些动作串起来，尽量让 AI 自己跑完整条链路。你还在把 AI 当搜索框，别人已经把它当半个工程同事了。

GPT-5.3 Codex 在做什么：从“会写代码”升级成“会在电脑上干活”

它的核心定位，不是补全器，而是软件工程 Agent

先看 OpenAI 这边。GPT-5.3 Codex 的野心很明确：它不想只待在 IDE 里当一个给建议的工具，而是想接手你在电脑上的整段专业工作流。

OpenAI Codex 页面

按照发布信息，GPT-5.3 Codex 被描述为一个能覆盖完整工作生命周期的 specialist agent。说白了，它想做的不是“帮你写一段函数”，而是更像一个能独立推进任务的软件开发者：调试、部署、文档整理，这些都在它的目标范围里。

其中一个很有冲击力的细节是，OpenAI 提到 Codex 是“第一个在创造自己这件事上发挥关键作用的模型”。他们已经拿它去调试自己的训练流程、协助管理部署。这件事的象征意义比参数表更大——AI 不只是写业务代码，已经开始参与 AI 系统本身的工程闭环了。

它的强项很集中：软件工程和命令行执行

从公开数据看，Codex 的优势非常偏工程执行面。

SWE-Bench Pro：56.8%
Terminal-Bench 2.0：77.3%

这两项指标都不是那种“看着热闹、离工作很远”的 benchmark。SWE-Bench 系列更接近真实软件工程问题，Terminal-Bench 则直接考命令行环境下的执行能力。尤其是 77.3% 的 Terminal-Bench 2.0 分数，说明它在 shell、命令流、工程操作这类事情上，已经不是“能试试”，而是有明确竞争力。

新的 Codex macOS App，暴露了 OpenAI 的真正路线

OpenAI 同时还发了 Codex 的 macOS 应用，这个动作其实很关键。

它不是简单换个客户端，而是把 Codex 包装成一个“多 Agent 调度中心”：你可以在桌面上同时管理多个 Agent，让它们并行处理不同任务。这个方向很像把个人开发者升级成一个小型调度者——你发号施令，多个 AI 去各自干活。

所以如果你本来就偏工程落地，想把明确任务批量交出去，Codex 的方向会很有吸引力。它像一个执行力特别强的操作型 Agent。

Claude Opus 4.6 在做什么：把长上下文推理和多 Agent 协作往前推了一大截

Anthropic 这次不是只在提性能，而是在提“协作密度”

再看 Claude Opus 4.6，它延续的还是 Anthropic 一贯的路线：可靠、可控、适合复杂知识工作，但这次把尺度拉得更大了。

Claude Opus 4.6 页面

Claude Opus 4.6 被定位成 Anthropic 目前最强的顶级模型，重点服务复杂知识工作、大规模信息推理，以及企业里的协作式 Agent 工作流。和 Codex 那种“我来把工程动作做完”的味道不太一样，Opus 4.6 更像一个能在大范围上下文里持续思考、持续统筹的模型。

100 万 token 上下文，不只是数字更大

它最显眼的更新，是 100 万 token 上下文窗口，目前还是 beta。

这个能力解决的是很多开发者都遇到过的“上下文腐烂”问题：对话拉长之后，模型开始忘前面说过什么；仓库一大，前后信息关联就开始断裂。100 万 token 的意义，不是让你炫耀“我能塞进去一本书”，而是让模型在超长材料里还能保持思路不断线。

你可以把整套代码库、大量文档、长规格说明、历史讨论一起喂进去，让它基于全局信息推理，而不是在局部片段里瞎猜。对大型代码库、复杂产品需求、长文档协同，这个提升非常实际。

Agent Teams 才是这次最像“下一代工作方式”的东西

Claude Opus 4.6 另一个很重要的能力，是 Claude Code 里的 Agent Teams。

这个功能的意思不是“开几个窗口同时聊天”，而是让多个 AI Agent 在同一个项目里协同工作。比如一个管前端、一个管 API、一个管数据库迁移，它们像人类软件团队一样拆任务、协作推进。

这一点和 Codex 的多 Agent 管理虽然都在讲 Agent，但哲学不太一样：

Codex 更像你亲自调度一群执行者；
Opus 4.6 更像你给定目标后，让一支 AI 小队自己分工协作。

如果说 Codex 偏“操作系统级工程代理”，那 Opus 4.6 更像“项目级协作代理”。

它的 benchmark 也说明了方向不同

Opus 4.6 在复杂推理和知识工作类 benchmark 上表现更强，比如 GDPval-AA 和 BrowseComp 都是行业领先。文章还提到，通过特定 prompting 的改造方式，它在 SWE-Bench Verified 上拿到了 81.42%。

这很说明问题：Opus 4.6 不是那种“默认就把所有工程 benchmark 全部碾压”的路线，而是当任务需要长链路推理、全局理解、复杂引导时，它会显出更细腻的能力。

另外，它还在往办公生产力工具里延伸，比如 PowerPoint 研究预览、对 Excel 类工具更强的配合能力。这意味着 Anthropic 想做的，不只是开发者模型，而是更全面的知识工作底座。

把数据摆在一起看：谁更适合干什么，其实已经很清楚了

原文里给了一组对照表，放在一起看会很直观：

Benchmark	GPT-5.3 Codex	Claude Opus 4.6	更强一方
Terminal-Bench 2.0	77.3%	65.4%	GPT-5.3 Codex
SWE-Bench Pro	56.8%	未公布	GPT-5.3 Codex
SWE-Bench Verified	80.0%	81.42%（特定改造）	Claude Opus 4.6
OSWorld-Verified	64.7%	72.7%	Claude Opus 4.6
GDPval-AA	低于 Opus	行业领先	Claude Opus 4.6
BrowseComp	未公布	行业领先	Claude Opus 4.6

看到这里，其实不太需要再争“谁绝对更强”。更靠谱的结论是：

Codex 更像工程执行特化型选手，在命令行、软件工程、确定性任务落地上更猛。
Opus 4.6 更像长上下文推理和复杂协作型选手，在全局理解、复杂知识工作、Agent 团队协同上更强。

如果你的任务是“这件事怎么都已经定义清楚了，你去把它做完”，Codex 的风格通常更对路。

如果你的任务是“这件事涉及很多历史背景、很多文档、很多模块，还得边想边拆边协作”，那 Opus 4.6 的优势就更容易显出来。

真正拉开差距的，不只是 benchmark，而是 Agent 哲学

数字归数字，这两家最值得关注的，其实是它们对“AI Agent 应该怎么工作”的理解不同。

Codex：从代码生成器走向“电脑操作员”

Codex 的路线图很明确：让一个用户像指挥中控台一样，管理一群强执行力 Agent。你是总控，Agent 是执行层。它强调的是可操作性、可调度性、工程动作的一致性。

这种模式适合什么场景？特别适合软件开发里那些任务清晰、动作链条长、但不一定需要反复战略讨论的工作。比如修 bug、跑部署、批量改代码、处理命令行流程，这些都很贴它的定位。

Opus 4.6：从强模型走向“AI 团队”

Opus 4.6 则更强调 Agent 之间的协作分工。它不是让你时时刻刻盯着每个 Agent 怎么执行，而是希望你更像项目负责人：给目标、给边界，再让一支 AI 团队自己规划怎么完成。

这种模式特别适合复杂项目。因为真正难的往往不是“把一件事做掉”，而是“把多个模块、多个角色、多个约束统一起来”。Agent Teams 想解决的就是这个层面的问题。

所以如果你非要一句话总结二者差异，可以这么理解：

Codex 更像执行层超级个体
Opus 4.6 更像协作层智能团队

安全和企业可用性，为什么这次也必须一起看

模型越像“能自己干活的同事”，企业越不可能只盯着效果看，还得盯着安全和合规。

OpenAI 在 GPT-5.3 Codex 上给出的信息是，它在网络安全任务上被归类为“High capability”，既覆盖防御也覆盖进攻类能力。为此，OpenAI 推出了 Trusted Access for Cyber 框架，并用 1000 万美元基金推动 AI 驱动的网络安全防御。

Anthropic 这边的叙事更延续自己一贯的风格：Claude 的安全设计建立在 Claude Constitution 这套原则之上，同时企业侧提供 SOC 2、ISO 27001、HIPAA readiness 等合规能力，并通过 Trust Center 对外说明。

这部分看起来不像“模型能力对比”里最热闹的点，但对企业来说反而很关键。因为把 Agent 接进工作流，问的从来不只是“它能不能做”，还包括“它出了问题能不能控”“能不能过合规”“能不能放心进核心流程”。

价格和可用性：两边都不便宜，而且使用方式完全不同

GPT-5.3 Codex 怎么用

根据原文，GPT-5.3 Codex 已经面向付费 ChatGPT 用户开放，可以通过 Codex app、CLI 工具和 IDE 扩展使用。

不过它的 API 还在逐步开放阶段，API 定价暂时没有正式公布。这意味着如果你更偏个人开发体验，Codex 已经能上手；但如果你是团队，准备基于 API 做更深集成，那还得等更完整的开放节奏。

Claude Opus 4.6 怎么用

Claude Opus 4.6 则已经能通过 Claude API 直接使用，而且价格沿用了前代：

输入：5 美元 / 百万 token
输出：25 美元 / 百万 token
当 prompt 超过 20 万 token 时，提升到 10 / 37.5 美元

这套定价的麻烦在于，长上下文和深度推理很强，但账单也更容易失控。尤其是你真的开始把大仓库、大文档、大任务往里塞之后，成本会比表面数字更有体感。

价格与定位对比图

所以价格层面也能看出两边差异：Codex 目前更像产品化入口先行，Claude Opus 4.6 则是 API 侧路径更清晰，但成本模型更需要精打细算。

到底该选谁？别再问“最强”，先问你的任务长什么样

选择建议总览

如果你的核心目标是：

自动化很具体的软件工程任务
更强的命令行执行能力
让 Agent 真正在电脑上操作和交付
把明确需求快速做完

那 GPT-5.3 Codex 会更像你要的工具。

如果你的核心目标是：

在超长上下文里做复杂推理
跨大代码库、大文档、大量历史信息持续工作
需要多个 Agent 分工合作
更看重全局理解和复杂项目协调

那 Claude Opus 4.6 更值得重点看。

换句话说，Codex 更适合“高确定性执行”，Opus 4.6 更适合“高复杂度协作”。

Claude Opus 4.6 到底是什么？普通开发者能拿它做什么？

如果你之前只把 Claude 理解成一个聊天模型，那这次升级里最该重新认识的，其实是它在工程工作流里的位置。

Claude Opus 4.6 不是传统意义上的代码补全工具。它更像一个能承担复杂任务的自主 Agent：能处理超长上下文，能读懂大规模信息，能在 Claude Code 里配合多 Agent 协作，还能在复杂知识工作和工程任务里保持比较稳定的推理质量。

落到实际使用场景里，它比较适合这些事：

读大型代码库并做跨模块分析
带着大量设计文档、需求背景一起规划改造方案
多文件重构、复杂调试、长期任务拆分
让多个 Agent 角色并行推进同一个项目

官方使用路径也比较清晰：你可以通过 Claude API 直接接入；如果是订阅制用户，通常会接触到 Claude Pro、Claude Max 这类套餐，不同档位对应可用模型和使用额度不同。API 公开价格如上，Opus 4.6 维持前代定价，但长 prompt 会进入更高阶梯。

不过说实话，官方订阅对国内用户不太友好——需要海外信用卡，网络环境也得折腾。如果嫌麻烦想找个更省事的渠道，可以看看 Code80，真实订阅帐号转 API，换个 endpoint 就能直接用，体验跟官方一样。详情可以到官网了解：code.ai80.vip

常见问题

Q1：GPT-5.3 Codex 和 Claude Opus 4.6 的最大区别是什么？

A：核心区别在定位。GPT-5.3 Codex 更偏软件工程执行和命令行操作，Claude Opus 4.6 更偏长上下文推理、复杂知识工作和多 Agent 协作。

Q2：单看 benchmark，谁赢了？

A：没有绝对赢家。Codex 在 Terminal-Bench 2.0 和 SWE-Bench Pro 这类工程执行指标上更强，Opus 4.6 在 GDPval-AA、BrowseComp、OSWorld-Verified 以及特定条件下的 SWE-Bench Verified 上更亮眼。

Q3：如果我是开发者，应该优先关注哪个能力？

A：看你的任务形态。明确需求、强调执行效率，就优先看 Codex；任务复杂、上下文巨大、需要协作拆分，就优先看 Opus 4.6。

Q4：Claude Opus 4.6 的 100 万 token 真有用吗？

A：对小任务未必，但对大仓库分析、长文档理解、跨多模块推理非常有用。它解决的不是“能不能塞更多文本”，而是“模型在超长上下文里还能不能持续保持理解”。

Q5：为什么很多人开始把 AI 编程工具理解成 Agent，而不是聊天机器人？

A：因为这一代工具已经不只回答问题了，而是在读文件、跑命令、调试、协作、拆任务，正在向真实工作流的执行者演进。

Q6：国内用户如果想更省事地用上 Claude 能力，有什么办法？

A：如果你不想折腾支付和网络，国内用户可以通过 Code80 更方便地使用。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

AI编程工具横评模型选型横评与选型

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

兼容 Quick Share 且完全离线：跨平台剪贴板同步工具 Privli 限免

Privli 是一款主打“隐私至上”与“本地优先”的跨平台效率工具，集成了剪贴板同步与附近文件互传功能。该应用基于 Google 开源的 Nearby 协议构建，完全脱离 GMS（Google Mobile Services）依赖，且完美兼容原生 Android 的 Quick Share 标准，实现了与未安装该应用设备的直接交互。在数据安全层面，Privli 采取零收集策略，无需注册账号，全程在本地网络运行，甚至针对低版本 Android 系统摒弃了传统的整盘读写权限，仅通过系统选择器授权单一文件夹，实现了“零权限”文件存储。功能体验上，Privli 支持 Windows、macOS、Linux 及移动端的全平台无缝联动。其剪贴板同步功能允许用户在 PC 复制文本或截图后，直接在 Android 设备上粘贴，且支持后台自动接收。价格策略方面，除 iOS 采用一次性买断制（目前正处于限时免费状态）外，Linux、Android 及 Windows 版本均长期免费，macOS 用户也可通过 Homebrew 或直接下载 DMG 免费使用。这为注重隐私且跨设备办公的用户提供了一个无云端依赖的高效解决方案。

事件分析

Privli 的出现反映了当下科技领域对“本地优先”理念的回归与重视。在数据隐私日益受关注的背景下，利用 Google 开源的 Nearby 协议而非依赖传统的云端中转，不仅规避了服务器泄露风险，也绕开了对 GMS 服务的强制依赖，这为非原生 Android 生态或海外市场用户提供了新的连接方案。从技术实现看，其兼容 Quick Share 并简化 Android 存储权限的策略，展示了如何在尊重系统沙盒机制的同时提升用户体验。这类工具填补了不同操作系统（特别是 iOS 与 Android/PC 之间）间即时互传的生态空白，虽然无法完全改变操作系统厂商的封闭策略，但通过协议兼容性降低了跨生态协作的门槛。

💡 核心观点：Privli 借助开源 Nearby 协议打破生态壁垒，以“零权限”和“本地优先”重塑了跨平台数据互传的隐私标准。

原文链接：V2EX 分享发现

19小时前
开源利器：一键计算你的 AI 订阅与 API 每月开销

近日，一款专注于计算 AI 使用成本的轻量级工具在开发者社区引起关注。该工具旨在解决当前 AI 服务订阅分散、计费模式复杂导致的财务管理痛点。随着 ChatGPT、Claude 等服务的普及，用户往往同时持有多个付费订阅，难以直观掌握每月在 AI 辅助工具上的总支出。这款新工具提供了一个纯前端的解决方案，其核心功能包含两部分：一是针对常见的 AI 订阅服务（如各类会员制）进行勾选统计，帮助用户快速汇总订阅费用；二是针对专业开发者，接入了 OpenRouter 的实时价格接口。鉴于 OpenRouter 聚合了 300 多种模型，价格体系繁杂，该工具支持用户输入预估的 Token 数量，实时查询不同模型的调用成本，从而精准计算通过 API 调用大模型的实际花费。在技术实现上，该工具体现了极简主义与隐私优先的设计理念。整个应用被封装在一个单一的 HTML 文件中，完全不依赖后端服务器，不涉及用户注册或数据留存，所有计算逻辑均在用户本地浏览器中执行。这不仅保证了部署的便捷性，也从根本上杜绝了用户消费数据泄露的风险。

事件分析

从技术架构视角审视，采用单文件 HTML（Single File Component）形式分发应用，无需复杂的构建流程或后端数据库，展示了一种高效且安全的开源工具分发模式。这种“无服务器”架构在处理敏感数据（如个人消费习惯）时具有天然优势，符合当前技术界对隐私保护的硬性要求。从产业影响来看，随着大模型商业化落地的深入，AI 使用成本管理已从边缘问题转变为开发者和企业的核心关切。模型厂商众多、计费维度各异（订阅制、按 Token 计费等）造成了信息不对称。该工具通过聚合 OpenRouter 实时价格，实际上充当了跨模型的比价与成本监测窗口。这预示着 AI 工具市场正在从单纯的“功能竞赛”向“精细化运营”转型，未来针对 AI 资产管理的效能工具将成为生态中的重要补充。

💡 核心观点：随着 AI 使用成本激增，这种零后端的轻量化工具不仅解决了开发者费用统计的刚需，更折射出 AI 应用生态向精细化运营与隐私优先发展的必然趋势。

原文链接：V2EX 分享发现

19小时前
独立开发者打造 AI 大模型百科 Wiki，整理行业资料与发展历史

近日，一位专注于AI大模型行业的开发者发布了一款名为“HeyAIWiki”的综合性知识库站点，旨在通过系统化的整理解决当前行业信息碎片化的问题。该站点源于作者个人的日常学习与资料积累，涵盖了从大模型基础概念、技术演进历史到各类前沿工具的广泛内容。随着人工智能技术的快速迭代，大量的论文、开源项目及模型评测报告层出不穷，导致从业者面临巨大的信息筛选成本。HeyAIWiki 试图构建一个结构清晰、内容详实的知识导航，收录了包括主流模型架构、关键行业节点及实用开发工具在内的核心条目。对于关注芯片算力、自动驾驶及前沿科技的读者而言，该平台不仅是一个静态的查询工具，更是一个观察AI技术脉络与产业发展的动态窗口。通过整合分散在社区论坛、代码仓库及学术论文中的高价值信息，该Wiki有效降低了新人入行的门槛，也为资深工程师提供了一个复盘技术演进的参考坐标。

事件分析

从行业基础设施的角度来看，垂直领域的高质量知识聚合是AI技术普及与落地的重要推手。当前大模型领域存在严重的“信息过载”与“知识孤岛”现象，技术文档散落在各类平台，缺乏标准化的梳理。HeyAIWiki作为个人发起的开源向项目，其核心价值在于通过人工筛选提升了信噪比，弥补了通用搜索引擎在专业深度上的不足。这种基于社区贡献的知识库模式，能够快速反映最新的技术趋势，如Agent架构、MoE训练等前沿话题。它不仅服务于开发者，也为产业研究者提供了清晰的宏观视角，有助于推动技术认知的平民化，是构建AI技术生态中不可或缺的一环。

💡 核心观点：在信息爆炸的AI时代，高质量的结构化知识整理能力已成为稀缺资源，此类百科站点是降低技术认知门槛的必要基础设施。

原文链接：V2EX 分享发现

20小时前
AI编程实战对比：Opus长上下文烧钱失效，GPT 5.5低价搞定难题

一位开发者在技术社区分享了使用不同大模型解决 APP 爬虫风控问题的实战经历。该开发者最初尝试使用 Anthropic 的 Opus 模型（文中标注为 Opus 4.8），先后启用了 200k 和 1M 的上下文窗口。然而，尽管累计消耗了约 35 美元的额度，Opus 模型仍未能解决问题，且表现出对开发者验证结果的“固执”怀疑，导致最终失败。随后，开发者切换至 OpenAI 的 GPT 系列模型（文中称为 GPT 5.5）。结果显示，GPT 模型在首次尝试中便从开源项目中精准定位了正确的测试方案，总计仅花费 2.9 美元便完成了包括代码测试和验证在内的全部任务。这一案例在技术圈引发了关于长上下文实际效用、模型性格及 AI 辅助编程成本效益的广泛讨论。

事件分析

该案例直观地折射出当前 AI 编程工具在应用层面的几个关键痛点与误区。首先是“长上下文陷阱”，虽然 1M 的上下文窗口理论上能容纳更多代码，但在处理具体逻辑修正时，大上下文反而可能导致模型注意力涣散或产生更顽固的幻觉，并非解决复杂问题的银弹。其次是模型行为的“性格差异”，Opus 表现出的“固执”可能源于其对事实核查的过度对齐，反而在工程调试中成了阻碍，而 GPT 5.5 展现出的顺从性和泛化能力反而更符合开发者的实际需求。最后是成本与收益的非线性关系，昂贵的顶尖模型并不保证产出比更好，在具体任务中，模型的推理方向与性价比往往比参数量更为关键。

💡 核心观点：长上下文窗口不等于解决力，AI 编程的实战价值取决于精准推理与成本控制，而非盲目堆砌参数。

原文链接：Linux.do

20小时前
UCCL-EP开源：支持任意网卡实现专家并行，移除GPU通信依赖

近日，一项名为 UCCL-EP 的开源技术项目在技术社区引发关注。该项目提出了一种创新的通信协议，旨在优化大模型训练中的“专家并行”。在传统的大规模分布式训练，特别是 Mixture of Experts (MoE) 架构中，高效的 All-to-All 通信往往依赖于昂贵的特定网卡或 GPU 主动发起的通信机制。UCCL-EP 的核心价值在于打破了这一硬件限制，允许在任何标准网卡（NIC）上实现类似 DeepEP 的高效通信模式，并彻底消除了由 GPU 发起通信的需求。这一改进不仅释放了 GPU 的计算资源，使其专注于核心的张量运算，还通过降低网络硬件要求，显著降低了高性能 AI 训练集群的构建成本。该技术为构建低成本、高吞吐量的 AI 基础设施提供了新的可行性路径。

事件分析

从技术架构角度看，UCCL-EP 试图通过软件层优化解耦高性能计算与特定硬件生态。移除“GPU发起通信”意味着将通信调度权转移至CPU或智能网卡，这对于降低大规模 MoE 模型训练的延迟至关重要。产业层面，这一进展有助于打破 NVIDIA 等厂商在网络通信层的技术垄断，使企业能够利用通用以太网硬件构建高性能集群。若该方案能持续迭代并稳定支持主流训练框架，未来可能成为云厂商降低大模型算力成本的关键组件。

💡 核心观点：通过软件层解耦通信与硬件绑定，该技术有望大幅降低MoE大模型训练的硬件门槛与成本。

原文链接：Hacker News

21小时前
极客实测有道词典笔A7：通过提示词注入破解AI助手限制

近日，社区技术爱好者对新款有道词典笔A7进行了深入的技术实测。作为搭载了大模型技术的智能硬件，A7试图通过“AI智能问答”功能提升用户体验，但实际测试暴露了其在性能优化与安全防护上的诸多缺陷。在交互层面，测试发现该设备存在UI逻辑割裂的问题，AI功能不仅强制依赖语音输入、屏蔽文字交互，且不支持对话历史的连续性，严重影响使用体验。在硬件层面，A7在运行大模型时发热严重，且缺乏联网检索能力，显示出边缘端算力与散热的瓶颈。本次测试的核心发现在于安全漏洞的挖掘。测试者利用设备查词时的AI解释功能，通过分析其返回的文本结构，推断出后台使用了固定的提示词模板。随后，测试者利用输入法在查询内容中拼接了包含“越狱”指令的特殊字符，成功实施了提示词注入攻击。结果显示，尽管部分模型坚持了预设的人设限制，但代号为“ds”的模型在接收到拼接指令后，成功突破了“家庭教师”的身份限制并回答了相关问题。此外，测试者还通过观察思维链（CoT），确认了系统底层存在禁止讨论编程内容的安全限制。这一研究揭示了硬件预置大模型应用在防御提示词注入方面的脆弱性。

事件分析

此次事件从侧面反映了AI硬件落地过程中的技术难点与安全隐忧。从硬件性能来看，词典笔A7严重的发热现象说明在端侧设备上部署大模型时，功耗与算力的平衡依然是巨大挑战，这导致厂商不得不通过限制功能（如禁用文本输入、取消联网搜索）来勉强维持运行。从软件架构与安全角度分析，测试者能够轻易利用提示词注入绕过限制，暴露了该设备在开发时采用了极不严谨的字符串拼接方式来构建系统提示词。这种低成本的实现方式缺乏对用户输入的深层清洗，容易被简单的语法结构欺骗，从而泄露系统指令或输出违规内容。这表明，当前的AI硬件竞赛中，厂商往往急于堆砌大模型功能，却忽视了安全工程的重要性。未来，随着AI硬件的普及，如何构建对抗攻击鲁棒的提示词工程，将是保障产品安全的关键。

💡 核心观点：边缘AI硬件不仅受限于算力与散热，简陋的提示词工程更使其极易沦为安全防护的突破口。

原文链接：Linux.do

21小时前

写在前面

逐行手写代码的时代，正在被重新定义

GPT-5.3 Codex 在做什么：从“会写代码”升级成“会在电脑上干活”

它的核心定位，不是补全器，而是软件工程 Agent

它的强项很集中：软件工程和命令行执行

新的 Codex macOS App，暴露了 OpenAI 的真正路线

Claude Opus 4.6 在做什么：把长上下文推理和多 Agent 协作往前推了一大截

Anthropic 这次不是只在提性能，而是在提“协作密度”

100 万 token 上下文，不只是数字更大

Agent Teams 才是这次最像“下一代工作方式”的东西

它的 benchmark 也说明了方向不同

把数据摆在一起看：谁更适合干什么，其实已经很清楚了

真正拉开差距的，不只是 benchmark，而是 Agent 哲学

Codex：从代码生成器走向“电脑操作员”

Opus 4.6：从强模型走向“AI 团队”

安全和企业可用性，为什么这次也必须一起看

价格和可用性：两边都不便宜，而且使用方式完全不同

GPT-5.3 Codex 怎么用

Claude Opus 4.6 怎么用

到底该选谁？别再问“最强”，先问你的任务长什么样

Claude Opus 4.6 到底是什么？普通开发者能拿它做什么？

常见问题

Q1：GPT-5.3 Codex 和 Claude Opus 4.6 的最大区别是什么？

Q2：单看 benchmark，谁赢了？

Q3：如果我是开发者，应该优先关注哪个能力？

Q4：Claude Opus 4.6 的 100 万 token 真有用吗？

Q5：为什么很多人开始把 AI 编程工具理解成 Agent，而不是聊天机器人？

Q6：国内用户如果想更省事地用上 Claude 能力，有什么办法？

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

兼容 Quick Share 且完全离线：跨平台剪贴板同步工具 Privli 限免

事件分析

开源利器：一键计算你的 AI 订阅与 API 每月开销

事件分析

独立开发者打造 AI 大模型百科 Wiki，整理行业资料与发展历史

事件分析

AI编程实战对比：Opus长上下文烧钱失效，GPT 5.5低价搞定难题

事件分析

UCCL-EP开源：支持任意网卡实现专家并行，移除GPU通信依赖

事件分析

极客实测有道词典笔A7：通过提示词注入破解AI助手限制

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入