Kyle Mistele 把 loop 还原成控制论

分类：实战阅读() 评论(0)

Kyle Mistele 的 “Loop Engineering from first principles” 是当天最像工程课的一场。他没有把 loop 当新词，而是把它放回控制论：测量状态、比较目标、计算误差、做小步调整。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

loop 不是重复执行

很多人听到 agent loop，会以为就是让模型一直跑。失败了再试，没完成就继续。这类 Ralph loop 看起来自动化，实际很危险，因为它没有真实测量。

Kyle 从 thermostat、Kubernetes autoscaling、Postgres autovacuum、React virtual DOM 这些例子讲起。它们共同点不是 “重复”，而是有目标状态、有当前状态、有误差、有 controller。

把这个框架放到 agent 里，问题就清楚了。一个好的 agent loop 要知道：目标是什么，当前状态是什么，差距在哪里，下一步最小调整是什么，什么时候停止。

为什么要小步增量

Kyle 强调，控制 loop 通常是增量改变系统，而不是一次性推倒重来。这个原则对 coding agent 特别重要。

模型很容易生成大改动。大改动看起来进展快，但验证半径也会变大。一个 PR 改了几十个文件，测试又不完整，人就很难判断它到底对不对。最后你不是省时间，而是在更复杂的 diff 里还债。

小步增量的好处，是让验证跟得上生成。每次只改一个可测量问题，观察结果，再决定下一步。Karpathy 说 tight leash，也是这个意思。短绳不是保守，而是把模型的速度关进可验证的步长里。

HumanLayer 的控制 loop

Kyle 还用 HumanLayer 内部实践说明 control loop。转录里提到，他们用 loop 去识别坏模式、清理代码、处理复杂 codebase 中的工作。重点不是让 agent 自由发挥，而是围绕可测量目标行动。

这和当天后面 Dex 的提醒也能连起来。loop 不是魔法。如果目标不可测、反馈不可用、权限过大、停止条件模糊，loop 只会更快制造问题。

我会把这场当作 software factory 的底层定义：loop 是带测量的反馈控制，不是无脑重试。

如果你要在团队里上 agent loop，可以先问四个问题：目标能不能写成可检查条件？当前状态能不能测量？每次改动能不能小到可 review？失败以后系统能不能告诉你错在哪里？四个都答不上来，就别急着自动化。

控制论给 agent 设计降温

Kyle 把 loop 拉回控制论，非常有价值。现在很多 agent 产品喜欢说自己有 loop，但实际只是“失败后再问一次模型”。这不叫控制系统，只是重复尝试。

真正的控制 loop 要有 sensor、desired state、error、controller 和 actuator。放到软件开发里，sensor 可能是测试、lint、静态分析、用户反馈、性能指标；desired state 是 spec；error 是当前结果和目标的差距；controller 决定下一步；actuator 执行修改。

少掉任何一环，loop 都会变形。没有 sensor，系统不知道自己错了；没有 desired state，系统不知道该往哪走；没有 controller，系统只会随机试；没有停止条件，系统会越跑越偏。

lights-off 工厂的教训

他提到自己团队跑过接近 lights-off 的软件工厂，后来留下了伤疤。这部分很重要，因为它不是反 AI，而是反对没有控制的自动化。

当代码变得“免费”，系统很容易生成越来越多改动。短期看任务完成了，长期看坏代码会复利。agent 产生的问题，有时又会被新的 agent 修补，最后整个代码库变成难以理解的层层补丁。

这就是为什么小步增量重要。小步不是慢，而是降低每次验证成本。软件工厂想稳定，必须把生成速度和验证能力匹配起来。

loop engineering 是团队纪律

我会把 Kyle 这场当作一条纪律：任何自动化 loop 上线前，都要写清楚目标、传感器、动作边界和停止条件。比如“修复测试失败”这个目标太宽；更好的目标是“只修改某个模块，让这三个测试从失败变成通过，不改公共 API”。

这样 agent 才有可控空间，人也能 review。否则 loop 越强，越可能把错误规模化。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

AI Agent HumanLayer 增量迭代控制论

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

针对开发者在采用 Claude Code、Codex 及 Antigravity 等本地 AI Agent 进行编程时面临的会话历史检索困难与项目路径管理混乱等痛点，开发者 mahui 近日开源了一款名为 VibeTrail 的本地管理工具。该工具旨在打通不同 AI 编程助手的本地数据孤岛，为分散在 ~/.claude 和 ~/.codex 等配置目录中的会话记录提供统一的可视化入口与搜索能力。VibeTrail 核心功能包括按工作目录聚合的项目总览，使开发者能一目了然地看到所有涉及 AI 辅助的项目及其最近动态；内置基于 ripgrep crate 的全文搜索引擎，允许用户跨所有 Agent 或针对特定项目进行内容检索，并支持高亮跳转至具体对话节点；以及一键 Resume 功能，集成对 Terminal、iTerm2、Ghostty 等主流终端的支持，实现自动切目录并唤醒会话上下文。在技术实现上，软件采用 Rust + Tauri 架构，坚持“零数据库、零索引、无后台常驻”的轻量化设计，直接读取本地文件以保证隐私与性能。实测表明，在处理 2 万个会话（3.4GB 数据）时，打开延迟仅为 0.06 秒。目前项目已在 GitHub 发布，采用 Apache-2.0 协议，并设计了开放的 Provider 协议以支持接入更多 AI Agent。

事件分析

VibeTrail 的出现揭示了 AI 辅助编程从“单点代码生成”向“全流程知识管理”演进的趋势。随着 AI 渗透率提升，本地会话文件实际上构成了包含项目上下文、逻辑决策与调试记录的隐性知识库，但官方客户端的检索能力普遍滞后。该工具利用 Rust 的高性能与 ripgrep 的成熟算法，在无需复杂数据库索引的情况下实现了毫秒级全文检索，为解决“AI 垃圾数据堆积”与“项目上下文断连”提供了极具性价比的方案。其开放 Provider 协议的设计尤为重要，预示着未来开发者将拥有统一的“AI 活动日志层”，能够跨平台聚合不同工具的生成数据，这不仅是效率工具的补充，更是构建个人 AI 开发知识库基础设施的一次尝试。

💡 核心观点：随着 AI 编程成为常态，本地会话数据正成为核心资产，轻量级、跨平台的统一检索工具将是提升开发效率的关键基础设施。

原文链接：V2EX 分享发现

1小时前
AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

近日，科技论坛 Linux.do 上的一则帖子引发了关于 AI 开发强度的讨论。一位用户发帖称，为了运行名为“Fable 5”的任务，启用了两个 Claude Max 20x 账号进行高强度作业。结果在短短 24 小时内，这两个账号的每周使用额度即被彻底“蹬”完，直言“明天刷新”，并戏谑地询问是否需要开启第三个账号以维持工作流。这一事件虽然是个案，却极具代表性。它不仅展示了当前顶尖 AI 模型（如 Claude 3.5 Sonnet 等）在“20x”倍速或高并发模式下的极高算力消耗，也反映了开发者对高质量 AI 推理的巨大渴求。当单个账号的周限额在一天内耗尽，意味着 AI 已不再仅仅是辅助查询的聊天机器人，而是深入到了核心生产环节，成为了高频调用的“算力引擎”。这种对 API 额度的极限压测，侧面印证了当前 AI 编程和自动化任务的高景气度，同时也暴露了现有 SaaS 订阅制与高强度工业级开发需求之间的矛盾。

事件分析

这一事件揭示了 AI 应用层正在发生的质变。首先，“24小时耗尽双账号周限额”表明，对于重度开发者而言，AI 服务的消耗速率已远超普通消费者场景，模型正在被像 CPU 或 GPU 资源一样进行满负荷榨取。其次，所谓的“20x”可能指代某种高并发调用策略或特定的高效工作流配置，说明技术社区正在探索通过技术手段最大化模型产出。这种现象可能会迫使 Anthropic 等厂商重新思考其产品的配额管理与商业架构，如何在不滥用的情况下满足专业开发者日益增长的算力饥渴，将是未来 AI 供给侧的一大挑战。这也预示着 AI 编程工具的竞争将从模型性能逐渐转向成本控制和供应能力的比拼。

💡 核心观点：AI已从辅助工具进化为核心算力基础设施，现有订阅制的配额限制正成为制约高强度AI开发的瓶颈。

原文链接：Linux.do

2小时前
Arena 分享真实世界 agent eval

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Wei-Lin Chiang。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:26:10 开始）

分享内容

Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。

这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。

字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。

轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。第二层是方法或案例：这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

Arena 这场把 Day 2 的 eval 主题拉到收尾。前面讲了生成候选、优化 prompt、记忆、实验 trace、性能搜索，最后仍然需要一个评估系统判断 agent 有没有正确探索、有没有浪费、有没有在失败后恢复。

真实世界 eval 和静态 benchmark 的差异在于，环境会变化，工具会失败，信息会不完整。agent 的能力不是只体现在知道答案，而是体现在它怎样收集信息、怎样确认假设、怎样避免无意义动作。

这场分享的核心内容，是下一代 agent eval 要从结果分数变成轨迹审计。答案只是末端，过程同样重要。能解释路径、成本、失败边界和恢复能力的 eval，才有资格给 agent 更大的权限。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
Artificial Analysis 分享智能成本曲线

Trends in AI 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 George Cameron, Micah Hill-Smith。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:05:05 开始）

分享内容

George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。

字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。

这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。

Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。

分享结构

这场分享的结构比较清楚：先用 Trends in AI 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。第二层是方法或案例：字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场分享给前面的技术内容补了一层商业约束。Richard Socher 的 Eureka Machine、W&B 的 Arya、Aiden 的公开竞赛、GEPA 的多轮优化，都需要计算预算。智能价格曲线下降，会直接改变这些系统能不能规模化运行。

它也提醒团队不要只问“哪个模型最强”。更好的问题是，在某一类任务里，每个正确结果花多少钱、耗时多久、失败后重试成本多少。agent 系统的成本不是单次 API 账单，而是完整轨迹的成本。

这场分享的会议价值，是把 autoresearch 从技术可行性拉到经济可行性。模型越来越便宜，会扩大 loop 的使用范围；但成本下降也会掩盖浪费。只有把质量、价格和轨迹一起看，智能才会变成可管理资源。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
Closing Keynote 讨论人的责任边界

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Addy Osmani。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 07:48:00 开始）

分享内容

Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。

他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。

但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。

这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。第二层是方法或案例：他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

分享里一个重要区分是，agent 可以 follow runbook，但不能 inherit consequences。系统出错时，问题不是“模型为什么这样做”就结束，而是要追问谁理解了 policy、谁批准了权限、谁接受了风险、谁负责修复流程。

这也解释了为什么验证、trace 和 eval 在 Day 2 反复出现。它们不只是技术工具，也是责任工具。没有记录和证据，人类无法对自动化结果负责；没有责任边界，系统越自动，事故越难复盘。

Addy 这场给整天内容做了收束：AI 工程师的工作会继续上移。手工执行会被压缩，单次技巧会变便宜，长期留下来的能力是定义目标、设计系统、承担判断，并让错误能被追责和修正。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
AI Village 分享长周期多 agent 行为评估

Autoresearch in a Multi-Agent AI Village 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Erina Karati, Arunachalam Manikandan。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 06:55:05 开始）

分享内容

Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。

这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？

这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。

Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。

分享结构

这场分享的结构比较清楚：先用 Autoresearch in a Multi-Agent AI Village 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。第二层是方法或案例：这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这种设计很重要。它防止模型随意重写整个应用，也防止模型直接 gaming evaluation。系统给 agent 一个明确的搜索空间：如果来源归属消失，就改记忆写入规则；如果谣言变成事实，就改不确定性处理；如果角色不重新计划，就改 replanning trigger。

这场还强调 controlled scenarios。社交行为如果完全开放，很难判断系统是否变好。把场景控制住，才能反复运行、比较分数、保留有效改动、回滚无效改动。长周期 agent 需要实验，而不是一次好看的 demo。

AI Village 这场的会议价值，是把 autoresearch 放到 messy state 里验证。游戏只是例子，模式可以迁移到客服 agent、个人 agent、coding agent 和其他长任务系统：冻结 harness，缩小可编辑面，评分真实行为，保留通过测试的改动。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前

loop 不是重复执行

为什么要小步增量

HumanLayer 的控制 loop

控制论给 agent 设计降温

lights-off 工厂的教训

loop engineering 是团队纪律

来源与说明

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

事件分析

AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

事件分析

Arena 分享真实世界 agent eval

分享内容

分享结构

会议脉络

来源说明

Artificial Analysis 分享智能成本曲线

分享内容

分享结构

会议脉络

来源说明

Closing Keynote 讨论人的责任边界

分享内容

分享结构

会议脉络

来源说明

AI Village 分享长周期多 agent 行为评估

分享内容

分享结构

会议脉络

来源说明

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入