近日,一位开发者在 V2EX 社区分享了 Claude Opus 与 Gemini 3.1 Pro 在同一技术任务下的实战表现对比。测试环境基于集成了 Google Antigravity 工具的 IDE,任务目标是指定 AI 查询 Alpine 3.24.0、Debian 13.5.0 和 Rocky Linux 10.2.0 这三个 Docker 基础镜像中 OpenJDK 的最新版本号。结果显示出巨大的性能差异:Claude 仅耗时 1 分钟便完成目标,它通过编写 Python 脚本直接抓取官方软件仓库数据,精准提取版本号并生成了一份结构清晰的对比表格,甚至还主动关联了项目中的 `fix_exact.py` 文件状态。反观 Gemini,耗时超过 6 分钟仍未能给出有效结论,其执行日志充满了反复的失败尝试:多次发起无效的网络请求、使用错误的正则表达式解析 HTML、频繁读取系统日志以及试图在错误的软件源中寻找包。这一案例生动地展示了两个顶级大模型在工程落地、工具调用效率及任务稳定性上的显著差别。
事件分析
💡 核心观点:AI 编程实战差距的本质不在于语法生成,而在于对任务逻辑的拆解能力与工具调用的稳定性。
原文链接:V2EX 分享发现




评论前必须登录!
立即登录 注册