OpenAI 在 2025 年下半年把 Codex 从一个云端 ChatGPT 子产品拆成了独立的命令行工具(Codex CLI)+ 桌面端,定位跟 Anthropic 的 Claude Code 几乎正面撞车:都是跑在 terminal 里、能读你整个仓库、能直接改文件、能跑 shell、跟你来回拉扯几十轮的 AI 编程 agent。
过去半年,Linux.do 和 V2EX 上几乎每周都有人在问:Codex CLI 怎么装、Windows 为什么这么难用、跟 Claude Code 到底选哪个、能不能跟 DeepSeek 一起跑、能不能两个 agent 同时干活。这篇把这些问题按你真实会撞上的顺序串一遍,每个节点都挂上社区里已经踩过的具体案例,不绕弯子。
Codex CLI 是什么,以及它跟 Claude Code 的关系
Codex CLI 是 OpenAI 官方维护的命令行 AI 编程工具。你在仓库根目录跑 codex,它接管一个 REPL,你用自然语言描述要做什么(”把这个组件的 prop 类型从 string 改成 union”、”给我加个 dark mode 切换”、”为什么这个测试挂了”),它会自己读文件、自己写 patch、自己跑命令验证。中间需要执行任何会改文件或调 shell 的动作,会先弹一个确认。
它跟 Claude Code 的关系很简单:同一代工具的两个实现。Anthropic 先发了 Claude Code,OpenAI 跟进发了 Codex CLI。两者的交互范式、文件操作权限、shell 集成方式、甚至子命令名字都接近到可以互相替代。差别主要在三个层面:底层模型(一个跑 GPT 系,一个跑 Claude 系)、订阅体系(一个绑 ChatGPT Plus/Pro,一个绑 Claude.ai 订阅)、生态成熟度(Claude Code 的 skill / MCP 体系更成型,Codex 这边补得快)。
Linux.do 上一篇深度对比把两者在补全速度、agent loop 稳定性、长任务恢复能力做了横评,结论是 2026 年这个时间点二者已经接近平手,选哪个更多看你已经买了哪家订阅、以及你日常仓库用什么语言。
适合谁用,以及什么场景下别用
Codex CLI 适合的人很明确:愿意把 terminal 当主战场、愿意接受 agent 来回试错、对”AI 改完我得 review 一遍”这件事没有心理负担的工程师。它不是给你写一个完美 PR 的工具,它是把”写 → 跑 → 看输出 → 改”这个循环替你做掉,但每一步都要你看着方向。
不适合的场景也很明确:一次性写两行脚本、视觉敏感的前端微调(你看截图比让它读 DOM 快)、对延迟敏感的实时补全(这是 Cursor / Copilot 的位)。还有一类容易被忽略的反例:你已经清楚解决方案、只是不想自己打字 — 这种情况下你拉一个 agent 进来反而是在跟它扯皮,效率不如直接 vim。
“构建 Agent 和写软件是两种工程” 那篇里有句话挺扎心:写了十年代码的工程师上手 agent 时常常比新人还别扭,问题不是能力,是直觉错位。这个直觉错位主要发生在你试图把 Codex 当一个会写代码的实习生指挥,而它的真实形态更像一个能自己跑测试、自己改、自己再跑的有限自动机。把它当后者用,体验会顺很多。
Harness 的工程团队那篇复盘提供了一个很实用的视角:Codex 真正发挥威力的地方不是单点写代码,而是把它接进 CI / CD 的”长循环”里 — 你定义验收条件,它在循环里反复试,直到测试过。这是 agent 工具跟传统 IDE 助手最大的代际差别,也是为什么”评估有没有用”要看你能不能给它一个明确的成败信号,而不是看一次输出漂不漂亮。
安装与首次配置
各平台都有官方安装方式,但国内网络环境和 Windows 这两个组合会反复踩坑,下面分平台给最务实的路径。
macOS
最顺。直接 brew install codex 或者下桌面端。第一次启动登录 ChatGPT 账号,授权一个本地 token,写到 ~/.codex/config.toml。如果你已经有 ChatGPT Plus/Pro 订阅,CLI 用量从订阅额度里走,不另收钱。
Windows
最不顺。Codex 在 Windows 上的故事是一连串妥协。官方强制 PowerShell 作为默认 shell 一直被开发者诟病 — 很多 Linux 风格的命令在 PowerShell 下要重写一遍,agent 在 PowerShell 里跑 grep | sed 这种管道也跑不通。
务实的解法是直接走 WSL:在 WSL 里装 Codex CLI,再用 VSCode Remote-WSL 把工作区挂进去,体验跟 macOS 几乎一致。代价是要管两套环境变量、两套 git config,路径互通也要花一点心思。
如果你坚持用原生 Windows,还会撞上权限问题。Codex 的沙盒功能会动注册表和 ACL,卸载后清不干净,残留权限项需要手动收拾。建议第一次装在虚拟机或者新用户里试一遍再决定要不要上主开发环境,省得后面要 regedit 救命。
Linux
常规发行版都没问题。Ubuntu 24.04 是个例外,国内云厂商(特别是腾讯云)的 Ubuntu 24.04 镜像跟 Codex 的网络栈会有冲突,主要表现是流式响应被截断、长任务跑到一半断流。原帖给了 systemd-resolved 的配置补丁,复制粘贴能跑通。
Linux 上另一个常见诉求是绕开 Codex 的 sandbox 限制(默认它不让你写 $HOME 之外的路径,跑构建脚本会撞墙)。通过修改 Shell 配置文件解除 Codex/Claude CLI 沙箱限制的做法在社区里很流行,但要明白你是在主动把安全网拆掉,只在你自己的开发机上做,别在生产服务器或团队共用机上做。
国内网络环境
登录、流式响应、Web 搜索三个能力都依赖 chat.openai.com 和 api.openai.com 走得通。最低成本的做法:改 hosts 把 OpenAI 域名指到可直连的 IP,比上代理稳,不依赖你那条 VPN 是不是在掉。如果你的 Codex Desktop 频繁出现”5 次重连后失败”,原因通常是 WebSocket 协议没走代理,需要单独配置 ws/wss 的转发规则,仅配 HTTP 代理是不够的。
还有一个 2026 年新增的麻烦:最新版 Codex 强制要求绑定手机号,而且这个风控策略是突然上线的,没绑手机号的老账号会直接被踢出登录态。绕过手机号验证不容易,社区里能稳定走通的方案不多,用硬件密钥 + Mac 端登录的组合是少数能跑通的路径。新装的话,有手机号就老实绑,没有就提前准备好备用方案,别等被踢了再现找。
核心命令与日常工作流
Codex CLI 的命令面其实很窄,真正常用的就那么几个:启动 REPL、给一段自然语言任务、看 diff、approve / reject、commit。复杂度不在命令本身,在你怎么把任务描述给它。
从单 prompt 到 agent loop
新手最容易犯的错是把 Codex 当 ChatGPT 用 — 给一个长 prompt,等一个长回答,然后自己复制贴到编辑器。这是浪费。Codex CLI 的价值在它能自己开 loop:你说”修这个 bug,跑 npm test 直到全过”,它会去读相关文件、改、跑测试、看输出、再改、再跑,直到 exit code 0 或者它判断卡死了。
这种用法的关键是给它一个能自动判断”是否完成”的信号 — 跑得通的测试、能 grep 的字符串、能 lint 的规则。没有验证信号的任务(”让代码更优雅”)它会在第一轮就停,因为它不知道什么时候算完。一个简单的判断:如果你自己都说不清”做完了长什么样”,先别开 agent。
会话、执行历史与自我蒸馏
长任务跑久了,Codex 会把整个上下文(你给的指令 + 它跑过的命令 + 文件读取记录)累积成一个执行历史。OpenAI Codex 团队自己分享过一个”自我蒸馏”的提示词,让 Codex 回看自己刚才走过的弯路,从中提炼出可复用的 patch — 本质是把 agent 的中间产物变成下一轮的输入,闭环越短,质量越高。
2026 年 6 月的 Mac 客户端更新里,Codex 增加了”录制工作流并自动生成可复用技能”的能力。简单说就是你手动跑一遍流程,它把过程记下来,下次同类任务它能照着这个 skill 自动执行。这跟 Claude Code 的 skill 体系是对标的,但 Codex 的实现路径更”行为录制”,对不擅长写 prompt 的用户更友好。
MCP 集成、浏览器与 Computer Use
Codex 本身的 MCP 支持还在补,但围绕浏览器和 Computer Use(让 agent 直接操作 GUI)这两块已经能用,下面分开讲。
浏览器开发者模式
2026 年 6 月,Codex 接入了 Chrome DevTools Protocol(CDP),让 agent 能直接看到浏览器里的 DOM、network、console 输出,做前端调试的体感几乎是质变。以前你得自己把 console error 复制给它看,现在它自己去取。性能也翻倍 — 不是模型变快,是省掉了 round trip。前端工程师如果还没开这个开关,单这一项就值得升级到最新版。
Computer Use 与 Windows 兼容
Computer Use 让 Codex 能直接控制鼠标键盘截屏,跑桌面端自动化。这个能力在 macOS 上比较稳,Windows 端经常出”区域不可用”或权限不足的报错,官方给过修复方案但要改注册表权限。社区给出的另一条绕过路径是用第三方 wrapper Codex++ 把 Computer Use 调用劫持到一个兼容层,能临时缓解,但你接受多一层不可控依赖才用。
常见故障与排查
把社区里反复出现的问题按症状分类整理一遍,撞到了对着看,比刷帖快。
登录、风控、账号问题
2026 年这一档的麻烦最集中。突发的手机号绑定要求、区域限制、账号被风控降级,多发生在新注册账号或者频繁切 IP 的账号上。OpenAI Codex 的凭证管理一度被发现有漏洞,社区讨论了无限免费调用背后的数据交换 — 这种灰色路径风险大,不建议玩,被风控连带账号一起完蛋。稳的做法是一个账号绑死一台主力机器,避免来回切。
网络与连接
“5 次重连失败” 看 WebSocket,”流式响应被截断” 看 DNS 和 MTU,”web fetch 一直超时” 看 hosts。这三个症状基本覆盖国内 80% 的网络问题,按这个顺序排查比一上来怀疑账号要快。
配置陷阱
网上很多 Codex 教程是 2025 年版本的,到了 2026 年好几个配置项已经废弃。最常见的一个:很多教程让你在 config 里设 disable_response_storage = true,但源码里这个配置项已经被移除,配了不报错也不生效,是死配置。改 config 之前先查最新 release notes,别拿一年前的博客当圣经。
诡异行为
偶尔会有”agent 自己干活”的灵异事件。最知名的一次是开发者发现暂停的 Codex 会话在后台仍在修改代码,社区分析下来更可能是会话状态没正确清理 + 后台任务没被 SIGSTOP,不是真的”agent 自主行为”。但这个 bug 提醒一件事:当 agent 有 shell 权限时,”已暂停” 不等于 “已停止”,重要操作前先 kill -9 干净。
Codex vs Claude Code 怎么选,以及怎么一起用
到 2026 年中,单选已经不再是核心问题,更常见的格局是两个都装。
单选时的判断
三个维度足够你做决定:
- 已有订阅:有 ChatGPT Plus/Pro 选 Codex,有 Claude.ai Pro/Max 选 Claude Code。不用为了”哪个更好”再付一份钱。
- 语言偏好:实测 Claude Code 在 Python / TypeScript 重构上更稳,Codex 在 Go / Rust 和数据科学场景下能追平甚至略好,而且 Codex 在某些场景下 prompt 缓存命中率反而不如 Claude Code 接 DeepSeek 的组合,跟你想的不一定一样。
- 生态依赖:MCP / skill 体系做得深的话 Claude Code 更顺;想接 OpenAI 的 Computer Use、想用录制工作流,Codex 更顺。
双 agent 协作模式
这是 2026 年最有意思的工程实践。最简单的一种:让 Claude Code 做规划和 review,让 Codex 做执行。Claude 读需求 → 拆任务 → 写 spec → Codex 按 spec 实现 → Claude 跑 review。两个 agent 用同一个 git 仓库当通信介质,不需要单独的消息协议。
更工程化的版本是 GitHub 上的 architect-loop 项目,提出”建筑师模式”:Claude 当架构师做少量决策,Codex 当执行 agent 干大量实现,让贵模型负责思考、便宜模型负责打字,整体成本降一档质量不掉。
更精细的玩法走 git workflow:两个 agent 各起一个 branch,互相 review 对方的 PR,最后人只看合并后的 diff。这个模式在 Hacker News 上有过一轮热议,争议主要在”两个 LLM 互相 review 是否真能发现问题” — 实测它能逮到大部分语法、风格、明显逻辑漏洞,但深层架构问题还是要人扛。
把 Codex 接到非 OpenAI 模型上也是个流派。实测 DeepSeek 等模型接进 Codex 的代码编辑兼容性已经能跑,在 agent 高频调用的场景下,DeepSeek 订阅制的性价比明显胜过 OpenAI 按量付费。代价是模型能力上限低一档,长链路推理时会更早掉链子。决策依据:你的任务平均 token 量大、容错高,换 DeepSeek 划算;任务短、对推理稳定性要求高,还是老老实实用官方模型。
生态工具与延伸阅读
围着 Codex 这一年长出了一批工具,挑几个值得装的。
多账号 / 多 agent 管理
Codex 多开助手解决一个具体痛点:多账号切换时 token 互相覆盖。VibeAround 更进一步,统一管 Claude / Codex / Cursor 几个 AI 编程 agent,适合同时跑多个项目、不同项目用不同 agent 的人。想跑多个 Codex agent 并行做不同子任务,可以看 GitHub 上的 codex-parallel-collab,定义任务分层和锁文件机制,避免 agent 互相踩。
监控与可观测
Agent 跑长任务时你需要一个”看得见”的界面,不能光看 terminal 滚日志。Agenton 是个原生桌面端监控应用,能实时看到 Claude / Codex 当前的执行状态、token 消耗、错误率。生产场景下接进来比 tail -f 体感好太多,调试链路也能反向追到具体的子调用。
替代实现
不想被 OpenAI 官方 CLI 限死的,OpenCodex 2.0 是一个兼容 ChatGPT Codex 协议的开源替代,重构架构后支持远程 AI 编程模式。YC S25 的 Proliferate 也在做开源版 Codex 路线,定位是”AI 工程操作系统”,目前还在招创始工程师阶段,更多是值得跟踪方向、不是马上就能用。
实战案例
不知道 Codex 实际能做到什么程度,看几个完整案例最快:
- 用 Codex 快速复刻 8values 测试网站 — 全栈练手项目,难度适中,适合第一周。
- 用 Codex 开发原生 iOS App — 跨平台移植场景,能看到 agent 在 Swift 这类陌生语言上的表现。
- 一周开发开源 RTS 游戏 Sketch RTS — 复杂状态机的 agent 实战,验证 Codex 处理高耦合系统的能力。
- 单月烧 5 万美金跑 Codex 自动盯实验 — 极端长程任务的成本观察,告诉你 agent 跑到失控会贵成什么样。
- 用 Codex + AIGC 做 AI 桌宠 — 跨模态项目,编排比写代码更难。
OpenAI 官方动作
2026 年两个值得关注的官方动作。一个是“Intelligence at Work” 把 ChatGPT 跟 Codex 深度整合,目标是直接替代初级岗位,争议很大但方向明确。另一个是“Codex for Open Source” 计划给关键开源项目维护者送 6 个月 ChatGPT Pro,如果你是被认证的 maintainer,可以申请,省一笔订阅费。
学习路径建议
给完全没用过 agent 类工具的工程师一条 4 周路径,循序渐进、每步都有验证信号:
- 第 1 周 – 跑通:先把 Codex CLI 在你最熟悉的语言项目里跑通。任务难度选”加一个 README 章节”、”补一个测试用例”这种 5 分钟能验证完的。目标是建立”我说话它能改文件”的肌肉记忆,不要追功能。
- 第 2 周 – 撞墙:故意挑一个稍微复杂的任务,比如”把这个模块从 callback 改成 async/await,跑测试不挂”。重点不是结果,是观察它在哪一步开始失控、你需要在 prompt 里加哪些约束才能稳住。撞过墙你才知道边界在哪。
- 第 3 周 – 协作:装 Claude Code,复现一遍上面”双 agent 协作”那段的简化版。让两个 agent 处理同一个 issue,自己当裁判,看哪个的 diff 更好、为什么。这一步建立的是”模型不是唯一变量”的认知。
- 第 4 周 – harness 化:选一个你日常会重复做的任务(每周整理 changelog、生成发布说明、跑回归测试套件),尝试把它从”每次手动 prompt” 升级成”录制成 skill / 写成脚本”。这一步过去,你才算真正在用 agent,而不是在用一个高级补全。
这条路径的核心思路是:先建立信任,再练习失败,再练习编排,最后练习沉淀。跳过任何一步都会出问题 — 跳过失败你不知道边界在哪,跳过编排你只会单 agent,跳过沉淀你永远在重复输入同一句话。
Codex CLI 不是一个能让你”少写代码”的工具,它是一个让你重新定义”写代码”这件事的工具。原来工程师的工作是把脑子里的方案翻译成代码,现在变成定义验收条件 + 守住质量边界,中间的体力活让 agent 跑。习惯这个分工以后,你会发现自己慢慢看哪个工具都长得差不多 — Codex / Claude Code / Cursor / 任何后续出来的 agent,本质都在同一个范式里,差别只在底模、订阅、生态。








评论前必须登录!
立即登录 注册