Daksh Gupta 的一百万个 AI PR 观察

分类：实战阅读() 评论(0)

Daksh Gupta 代表 Greptile 分享了对一百多万个 AI 生成 PR 的分析。这是当天最接近工程现实的一场，因为它不是 demo，而是大量 PR 经过 review 后留下的数据。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

先把 AI 代码质量变成可测量问题

Daksh 的问题很简单：AI 写的 PR 到底有什么不同？这个问题如果只靠感觉，很容易分成两派。一派说 AI 代码全是 slop，另一派说它已经和人类差不多。Greptile 的优势在于它本来就在 review PR，于是可以看真实评论和问题标签。

他先尝试识别哪些 PR 是 vibe coded 或 agent generated。GitHub author 字段是一个线索，但不够完整。后来他看 Greptile 的 comments，因为 Greptile 会把问题标成 P0、P1、P2。这样就可以比较人写 PR 和 AI 写 PR 在不同严重程度上的问题率。

转录里有个反直觉点：AI 写的 PR 并没有在所有指标上明显更差。有些维度差异不大。但问题类型会偏移，比如 N+1 query、auth bypass 等类别的分布不同。

这类数据的价值在于，它把 “AI 代码质量” 从情绪争论拉回工程问题。你不能只说 AI 写得烂，也不能只说 AI 写得快。你要看具体 bug 类型、严重程度、review 成本和 accepted change。

accepted change 比代码贡献率更重要

这场也能反过来解释为什么代码贡献率不是好指标。一个 PR 可能 90% 由 AI 写，但如果 review 成本很高，或者引入安全问题，团队并没有真正省事。

本地 Loop Engineering 笔记里有一个指标很好：cost per accepted change。AI 生成了多少不重要，被接受、可维护、低风险地合入了多少才重要。Daksh 的数据正好能支撑这个口径。

他还讲到 Greptile 的客户更多来自较大公司，而不是个人开发者。这也影响数据解释。大公司代码库更复杂，review 流程更严，AI PR 的问题不会只体现在 “能不能跑”，还会体现在权限、性能、兼容性、既有模式是否被破坏。

分层治理比一刀切更现实

我的补充是，AI PR 的治理不应该一刀切。低风险、强测试覆盖、可自动回滚的改动，可以让 agent 跑得更远。涉及权限、认证、支付、数据迁移、生产部署的改动，必须加更硬的 gate。

这和软件工厂的核心一致：不是禁止 AI 写代码，也不是放任 AI 写代码，而是把不同风险等级放到不同流程里。

如果团队没有这种分层，最后只会把 review 压力转嫁给人。AI 生成越快，人越累。Daksh 的一百万 PR 观察告诉我们，下一步不是讨论 “AI 代码好不好”，而是建立能持续测量它好坏的系统。

一百万 PR 的价值在于把争论落到数据

Daksh 这场最重要的地方，是它把“AI 写代码到底行不行”从主观争论拉到大量 PR 数据。AI 生成 PR 不再是少数 demo，而是已经多到可以统计缺陷模式。

这会改变团队讨论方式。以前大家容易凭感觉站队：有人觉得 AI 代码都是垃圾，有人觉得人类 review 已经过时。数据会迫使讨论更细：哪些任务 AI 做得好，哪些任务高风险，哪些模型更容易引入某类问题，哪些 review 策略能降低事故。

他提到 auth bypass 这类安全问题，也说明 AI 代码的风险不只是样式差或命名怪。某些错误会直接进入权限和业务安全层。

AI PR 需要风险分层

我最认同这场的结论方向：不能把所有 AI PR 放进同一个流程。文案修改、测试补充、简单 bugfix、低风险重构，可以有较轻流程；涉及认证、支付、数据删除、权限、并发和迁移的改动，必须有更强 gate。

这个分层要提前设计，而不是 review 时临时靠人判断。比如路径规则、代码 owner、静态扫描、专门安全测试、人工强制审批，都应该根据风险自动触发。

review 不是人肉兜底

如果 AI 生成速度提升十倍，但 review 还是完全靠人肉读 diff，人类会变成瓶颈。更糟的是，人越累，越容易漏掉危险改动。

所以 AI PR 的成熟做法，不是取消 review，而是升级 review。让机器先做机械检查、模式识别和安全扫描，让人看架构、意图、边界和风险。Daksh 的数据提醒我们：软件工厂不能只优化生成端，也必须优化验收端。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

AI编程代码审查代码质量开发效率网络安全

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

针对开发者在采用 Claude Code、Codex 及 Antigravity 等本地 AI Agent 进行编程时面临的会话历史检索困难与项目路径管理混乱等痛点，开发者 mahui 近日开源了一款名为 VibeTrail 的本地管理工具。该工具旨在打通不同 AI 编程助手的本地数据孤岛，为分散在 ~/.claude 和 ~/.codex 等配置目录中的会话记录提供统一的可视化入口与搜索能力。VibeTrail 核心功能包括按工作目录聚合的项目总览，使开发者能一目了然地看到所有涉及 AI 辅助的项目及其最近动态；内置基于 ripgrep crate 的全文搜索引擎，允许用户跨所有 Agent 或针对特定项目进行内容检索，并支持高亮跳转至具体对话节点；以及一键 Resume 功能，集成对 Terminal、iTerm2、Ghostty 等主流终端的支持，实现自动切目录并唤醒会话上下文。在技术实现上，软件采用 Rust + Tauri 架构，坚持“零数据库、零索引、无后台常驻”的轻量化设计，直接读取本地文件以保证隐私与性能。实测表明，在处理 2 万个会话（3.4GB 数据）时，打开延迟仅为 0.06 秒。目前项目已在 GitHub 发布，采用 Apache-2.0 协议，并设计了开放的 Provider 协议以支持接入更多 AI Agent。

事件分析

VibeTrail 的出现揭示了 AI 辅助编程从“单点代码生成”向“全流程知识管理”演进的趋势。随着 AI 渗透率提升，本地会话文件实际上构成了包含项目上下文、逻辑决策与调试记录的隐性知识库，但官方客户端的检索能力普遍滞后。该工具利用 Rust 的高性能与 ripgrep 的成熟算法，在无需复杂数据库索引的情况下实现了毫秒级全文检索，为解决“AI 垃圾数据堆积”与“项目上下文断连”提供了极具性价比的方案。其开放 Provider 协议的设计尤为重要，预示着未来开发者将拥有统一的“AI 活动日志层”，能够跨平台聚合不同工具的生成数据，这不仅是效率工具的补充，更是构建个人 AI 开发知识库基础设施的一次尝试。

💡 核心观点：随着 AI 编程成为常态，本地会话数据正成为核心资产，轻量级、跨平台的统一检索工具将是提升开发效率的关键基础设施。

原文链接：V2EX 分享发现

3小时前
AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

近日，科技论坛 Linux.do 上的一则帖子引发了关于 AI 开发强度的讨论。一位用户发帖称，为了运行名为“Fable 5”的任务，启用了两个 Claude Max 20x 账号进行高强度作业。结果在短短 24 小时内，这两个账号的每周使用额度即被彻底“蹬”完，直言“明天刷新”，并戏谑地询问是否需要开启第三个账号以维持工作流。这一事件虽然是个案，却极具代表性。它不仅展示了当前顶尖 AI 模型（如 Claude 3.5 Sonnet 等）在“20x”倍速或高并发模式下的极高算力消耗，也反映了开发者对高质量 AI 推理的巨大渴求。当单个账号的周限额在一天内耗尽，意味着 AI 已不再仅仅是辅助查询的聊天机器人，而是深入到了核心生产环节，成为了高频调用的“算力引擎”。这种对 API 额度的极限压测，侧面印证了当前 AI 编程和自动化任务的高景气度，同时也暴露了现有 SaaS 订阅制与高强度工业级开发需求之间的矛盾。

事件分析

这一事件揭示了 AI 应用层正在发生的质变。首先，“24小时耗尽双账号周限额”表明，对于重度开发者而言，AI 服务的消耗速率已远超普通消费者场景，模型正在被像 CPU 或 GPU 资源一样进行满负荷榨取。其次，所谓的“20x”可能指代某种高并发调用策略或特定的高效工作流配置，说明技术社区正在探索通过技术手段最大化模型产出。这种现象可能会迫使 Anthropic 等厂商重新思考其产品的配额管理与商业架构，如何在不滥用的情况下满足专业开发者日益增长的算力饥渴，将是未来 AI 供给侧的一大挑战。这也预示着 AI 编程工具的竞争将从模型性能逐渐转向成本控制和供应能力的比拼。

💡 核心观点：AI已从辅助工具进化为核心算力基础设施，现有订阅制的配额限制正成为制约高强度AI开发的瓶颈。

原文链接：Linux.do

3小时前
Arena 分享真实世界 agent eval

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Wei-Lin Chiang。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:26:10 开始）

分享内容

Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。

这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。

字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。

轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。第二层是方法或案例：这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

Arena 这场把 Day 2 的 eval 主题拉到收尾。前面讲了生成候选、优化 prompt、记忆、实验 trace、性能搜索，最后仍然需要一个评估系统判断 agent 有没有正确探索、有没有浪费、有没有在失败后恢复。

真实世界 eval 和静态 benchmark 的差异在于，环境会变化，工具会失败，信息会不完整。agent 的能力不是只体现在知道答案，而是体现在它怎样收集信息、怎样确认假设、怎样避免无意义动作。

这场分享的核心内容，是下一代 agent eval 要从结果分数变成轨迹审计。答案只是末端，过程同样重要。能解释路径、成本、失败边界和恢复能力的 eval，才有资格给 agent 更大的权限。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
Artificial Analysis 分享智能成本曲线

Trends in AI 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 George Cameron, Micah Hill-Smith。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:05:05 开始）

分享内容

George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。

字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。

这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。

Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。

分享结构

这场分享的结构比较清楚：先用 Trends in AI 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。第二层是方法或案例：字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场分享给前面的技术内容补了一层商业约束。Richard Socher 的 Eureka Machine、W&B 的 Arya、Aiden 的公开竞赛、GEPA 的多轮优化，都需要计算预算。智能价格曲线下降，会直接改变这些系统能不能规模化运行。

它也提醒团队不要只问“哪个模型最强”。更好的问题是，在某一类任务里，每个正确结果花多少钱、耗时多久、失败后重试成本多少。agent 系统的成本不是单次 API 账单，而是完整轨迹的成本。

这场分享的会议价值，是把 autoresearch 从技术可行性拉到经济可行性。模型越来越便宜，会扩大 loop 的使用范围；但成本下降也会掩盖浪费。只有把质量、价格和轨迹一起看，智能才会变成可管理资源。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
Closing Keynote 讨论人的责任边界

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Addy Osmani。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 07:48:00 开始）

分享内容

Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。

他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。

但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。

这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。第二层是方法或案例：他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

分享里一个重要区分是，agent 可以 follow runbook，但不能 inherit consequences。系统出错时，问题不是“模型为什么这样做”就结束，而是要追问谁理解了 policy、谁批准了权限、谁接受了风险、谁负责修复流程。

这也解释了为什么验证、trace 和 eval 在 Day 2 反复出现。它们不只是技术工具，也是责任工具。没有记录和证据，人类无法对自动化结果负责；没有责任边界，系统越自动，事故越难复盘。

Addy 这场给整天内容做了收束：AI 工程师的工作会继续上移。手工执行会被压缩，单次技巧会变便宜，长期留下来的能力是定义目标、设计系统、承担判断，并让错误能被追责和修正。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
AI Village 分享长周期多 agent 行为评估

Autoresearch in a Multi-Agent AI Village 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Erina Karati, Arunachalam Manikandan。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 06:55:05 开始）

分享内容

Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。

这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？

这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。

Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。

分享结构

这场分享的结构比较清楚：先用 Autoresearch in a Multi-Agent AI Village 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。第二层是方法或案例：这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这种设计很重要。它防止模型随意重写整个应用，也防止模型直接 gaming evaluation。系统给 agent 一个明确的搜索空间：如果来源归属消失，就改记忆写入规则；如果谣言变成事实，就改不确定性处理；如果角色不重新计划，就改 replanning trigger。

这场还强调 controlled scenarios。社交行为如果完全开放，很难判断系统是否变好。把场景控制住，才能反复运行、比较分数、保留有效改动、回滚无效改动。长周期 agent 需要实验，而不是一次好看的 demo。

AI Village 这场的会议价值，是把 autoresearch 放到 messy state 里验证。游戏只是例子，模式可以迁移到客服 agent、个人 agent、coding agent 和其他长任务系统：冻结 harness，缩小可编辑面，评分真实行为，保留通过测试的改动。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前

先把 AI 代码质量变成可测量问题

accepted change 比代码贡献率更重要

分层治理比一刀切更现实

一百万 PR 的价值在于把争论落到数据

AI PR 需要风险分层

review 不是人肉兜底

来源与说明

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

事件分析

AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

事件分析

Arena 分享真实世界 agent eval

分享内容

分享结构

会议脉络

来源说明

Artificial Analysis 分享智能成本曲线

分享内容

分享结构

会议脉络

来源说明

Closing Keynote 讨论人的责任边界

分享内容

分享结构

会议脉络

来源说明

AI Village 分享长周期多 agent 行为评估

分享内容

分享结构

会议脉络

来源说明

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入