Daksh Gupta 的一百万个 AI PR 观察

Daksh Gupta 代表 Greptile 分享了对一百多万个 AI 生成 PR 的分析。这是当天最接近工程现实的一场,因为它不是 demo,而是大量 PR 经过 review 后留下的数据。

原视频:https://www.youtube.com/watch?v=htM02KMNZnk

先把 AI 代码质量变成可测量问题

Daksh 的问题很简单:AI 写的 PR 到底有什么不同?这个问题如果只靠感觉,很容易分成两派。一派说 AI 代码全是 slop,另一派说它已经和人类差不多。Greptile 的优势在于它本来就在 review PR,于是可以看真实评论和问题标签。

他先尝试识别哪些 PR 是 vibe coded 或 agent generated。GitHub author 字段是一个线索,但不够完整。后来他看 Greptile 的 comments,因为 Greptile 会把问题标成 P0、P1、P2。这样就可以比较人写 PR 和 AI 写 PR 在不同严重程度上的问题率。

转录里有个反直觉点:AI 写的 PR 并没有在所有指标上明显更差。有些维度差异不大。但问题类型会偏移,比如 N+1 query、auth bypass 等类别的分布不同。

这类数据的价值在于,它把 “AI 代码质量” 从情绪争论拉回工程问题。你不能只说 AI 写得烂,也不能只说 AI 写得快。你要看具体 bug 类型、严重程度、review 成本和 accepted change。

accepted change 比代码贡献率更重要

这场也能反过来解释为什么代码贡献率不是好指标。一个 PR 可能 90% 由 AI 写,但如果 review 成本很高,或者引入安全问题,团队并没有真正省事。

本地 Loop Engineering 笔记里有一个指标很好:cost per accepted change。AI 生成了多少不重要,被接受、可维护、低风险地合入了多少才重要。Daksh 的数据正好能支撑这个口径。

他还讲到 Greptile 的客户更多来自较大公司,而不是个人开发者。这也影响数据解释。大公司代码库更复杂,review 流程更严,AI PR 的问题不会只体现在 “能不能跑”,还会体现在权限、性能、兼容性、既有模式是否被破坏。

分层治理比一刀切更现实

我的补充是,AI PR 的治理不应该一刀切。低风险、强测试覆盖、可自动回滚的改动,可以让 agent 跑得更远。涉及权限、认证、支付、数据迁移、生产部署的改动,必须加更硬的 gate。

这和软件工厂的核心一致:不是禁止 AI 写代码,也不是放任 AI 写代码,而是把不同风险等级放到不同流程里。

如果团队没有这种分层,最后只会把 review 压力转嫁给人。AI 生成越快,人越累。Daksh 的一百万 PR 观察告诉我们,下一步不是讨论 “AI 代码好不好”,而是建立能持续测量它好坏的系统。

一百万 PR 的价值在于把争论落到数据

Daksh 这场最重要的地方,是它把“AI 写代码到底行不行”从主观争论拉到大量 PR 数据。AI 生成 PR 不再是少数 demo,而是已经多到可以统计缺陷模式。

这会改变团队讨论方式。以前大家容易凭感觉站队:有人觉得 AI 代码都是垃圾,有人觉得人类 review 已经过时。数据会迫使讨论更细:哪些任务 AI 做得好,哪些任务高风险,哪些模型更容易引入某类问题,哪些 review 策略能降低事故。

他提到 auth bypass 这类安全问题,也说明 AI 代码的风险不只是样式差或命名怪。某些错误会直接进入权限和业务安全层。

AI PR 需要风险分层

我最认同这场的结论方向:不能把所有 AI PR 放进同一个流程。文案修改、测试补充、简单 bugfix、低风险重构,可以有较轻流程;涉及认证、支付、数据删除、权限、并发和迁移的改动,必须有更强 gate。

这个分层要提前设计,而不是 review 时临时靠人判断。比如路径规则、代码 owner、静态扫描、专门安全测试、人工强制审批,都应该根据风险自动触发。

review 不是人肉兜底

如果 AI 生成速度提升十倍,但 review 还是完全靠人肉读 diff,人类会变成瓶颈。更糟的是,人越累,越容易漏掉危险改动。

所以 AI PR 的成熟做法,不是取消 review,而是升级 review。让机器先做机械检查、模式识别和安全扫描,让人看架构、意图、边界和风险。Daksh 的数据提醒我们:软件工厂不能只优化生成端,也必须优化验收端。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息,以及本地 AI engineering 知识库整理。文章不是逐字稿,而是按单场分享的主线、上下文和工程启发重写。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册