Erik Meijer 把 agent 安全拉回 proof

分类：实战阅读() 评论(0)

Erik Meijer 的 “In Code They Act, In Proof We Trust” 是当天最硬核的一场。他把 agent 安全从 prompt、policy 和 “模型应该学会对齐” 拉回 proof。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

能回答和能行动不是一回事

Erik 从 2022 年 11 月 ChatGPT 的出现讲起。那一天之后，人第一次可以自然地对电脑说话，让它总结邮件、回答问题、写文本。这个看似简单的函数，可以理解成 question in、answer out。

问题是，LLM 并不会天然区分代码、数据、指令、意图。只要它能读文本，就可能把不该当指令的东西当成指令。这就是 prompt injection 这类问题的根源。

当 agent 只是回答问题，错误还能被人拦住。可一旦 agent 能行动，风险就变了。它可能发消息、改数据库、调用 API、触发付款、删除资源。执行是不可撤销的，不能只靠模型 “看起来会安全地做”。

proof-carrying code 的旧思想重新有用

Erik 讨论 Lean、Dafny、proof-carrying code、taint analysis 等方法。核心思路是：agent 不只提交要执行的动作，还要提交机器能检查的证据。

如果一个 agent 要执行某个 plan，它应该证明这个 plan 不会把不可信输入带到危险操作里。proof 的价值在于，它不要求你相信模型。你只需要检查证明是否成立。

他也指出了困难。某些 proof 如果落到 IO 这种黑盒类型里，意义会变弱。Lean 这样的系统有强约束，但工程实践里要把这些理论接到真实 agent harness 上，并不简单。

软件工厂越自动化，proof 越重要

这场和 Derek Nee 的 proof ledger、Karpathy 的 verification、Kyle 的 control loop 是一条线。agent 越能行动，证据就越重要。没有 proof 的 agent，只是更快的权限风险。

很多团队现在把安全寄托在 prompt 上：告诉 agent 不要做坏事，告诉它遵守规则。这个层面有用，但不够。模型会误解，会被注入，会为了完成目标绕过限制。

Erik 给的方向更工程化：把不可让渡的安全条件做成机器可检查的东西。能静态检查就静态检查，能 taint analysis 就 taint analysis，能把 proof 放到执行前就不要等事故后复盘。

我的理解是，software factory 里的 “factory” 如果没有 proof，只是把危险动作规模化。真正能放心自动化的前提，是系统能在行动前拒绝不安全计划。

prompt injection 不是小漏洞

Erik 从 LLM 的基本形态讲起：question in、answer out。这个函数看似简单，但它把自然语言、代码、数据和指令混在同一个通道里。prompt injection 之所以麻烦，是因为模型很难天然分清“这段文本是在描述指令”还是“这段文本就是指令”。

当模型只回答问题时，这个风险已经存在；当它变成 agent 能行动时，风险就放大了。它可能把网页里的恶意内容当成用户命令，可能把不可信数据带到危险 API，可能为了完成任务越过安全边界。

所以这不是靠提醒模型“请安全”就能解决的问题。安全条件必须从自然语言愿望变成机器可检查规则。

proof 的价值是缩小信任边界

Erik 讲 proof-carrying code、taint analysis、Lean、Dafny，本质都是一件事：不要相信执行者本身，要相信可检查的证明和小而可信的 checker。

如果 agent 要执行一个计划，它不仅要说“我认为这安全”，还要给出“为什么安全”的形式化证据。系统只需要检查证明，而不是完全信任模型的判断。

这会把信任边界前移。危险动作不是执行后再审计，而是在执行前被拦住。对于删除数据、付款、发邮件、改生产配置这类不可逆动作，这个差别非常大。

proof 不是所有场景的答案，但会成为高风险动作的门槛

我不认为所有 AI 操作都要形式化证明。让 agent 改一段文案、生成一份摘要，不需要上 Lean。但高风险动作不同：生产数据库、权限系统、资金流、用户隐私、供应链脚本，这些地方必须有更强 gate。

Erik 这场的长期意义，是把软件工厂的安全标准从“相信 agent 会遵守规则”提升到“让系统拒绝无法证明安全的计划”。自动化越强，这条线越重要。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

AI代理 AI安全代码证明智能体网络安全

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

针对开发者在采用 Claude Code、Codex 及 Antigravity 等本地 AI Agent 进行编程时面临的会话历史检索困难与项目路径管理混乱等痛点，开发者 mahui 近日开源了一款名为 VibeTrail 的本地管理工具。该工具旨在打通不同 AI 编程助手的本地数据孤岛，为分散在 ~/.claude 和 ~/.codex 等配置目录中的会话记录提供统一的可视化入口与搜索能力。VibeTrail 核心功能包括按工作目录聚合的项目总览，使开发者能一目了然地看到所有涉及 AI 辅助的项目及其最近动态；内置基于 ripgrep crate 的全文搜索引擎，允许用户跨所有 Agent 或针对特定项目进行内容检索，并支持高亮跳转至具体对话节点；以及一键 Resume 功能，集成对 Terminal、iTerm2、Ghostty 等主流终端的支持，实现自动切目录并唤醒会话上下文。在技术实现上，软件采用 Rust + Tauri 架构，坚持“零数据库、零索引、无后台常驻”的轻量化设计，直接读取本地文件以保证隐私与性能。实测表明，在处理 2 万个会话（3.4GB 数据）时，打开延迟仅为 0.06 秒。目前项目已在 GitHub 发布，采用 Apache-2.0 协议，并设计了开放的 Provider 协议以支持接入更多 AI Agent。

事件分析

VibeTrail 的出现揭示了 AI 辅助编程从“单点代码生成”向“全流程知识管理”演进的趋势。随着 AI 渗透率提升，本地会话文件实际上构成了包含项目上下文、逻辑决策与调试记录的隐性知识库，但官方客户端的检索能力普遍滞后。该工具利用 Rust 的高性能与 ripgrep 的成熟算法，在无需复杂数据库索引的情况下实现了毫秒级全文检索，为解决“AI 垃圾数据堆积”与“项目上下文断连”提供了极具性价比的方案。其开放 Provider 协议的设计尤为重要，预示着未来开发者将拥有统一的“AI 活动日志层”，能够跨平台聚合不同工具的生成数据，这不仅是效率工具的补充，更是构建个人 AI 开发知识库基础设施的一次尝试。

💡 核心观点：随着 AI 编程成为常态，本地会话数据正成为核心资产，轻量级、跨平台的统一检索工具将是提升开发效率的关键基础设施。

原文链接：V2EX 分享发现

1小时前
AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

近日，科技论坛 Linux.do 上的一则帖子引发了关于 AI 开发强度的讨论。一位用户发帖称，为了运行名为“Fable 5”的任务，启用了两个 Claude Max 20x 账号进行高强度作业。结果在短短 24 小时内，这两个账号的每周使用额度即被彻底“蹬”完，直言“明天刷新”，并戏谑地询问是否需要开启第三个账号以维持工作流。这一事件虽然是个案，却极具代表性。它不仅展示了当前顶尖 AI 模型（如 Claude 3.5 Sonnet 等）在“20x”倍速或高并发模式下的极高算力消耗，也反映了开发者对高质量 AI 推理的巨大渴求。当单个账号的周限额在一天内耗尽，意味着 AI 已不再仅仅是辅助查询的聊天机器人，而是深入到了核心生产环节，成为了高频调用的“算力引擎”。这种对 API 额度的极限压测，侧面印证了当前 AI 编程和自动化任务的高景气度，同时也暴露了现有 SaaS 订阅制与高强度工业级开发需求之间的矛盾。

事件分析

这一事件揭示了 AI 应用层正在发生的质变。首先，“24小时耗尽双账号周限额”表明，对于重度开发者而言，AI 服务的消耗速率已远超普通消费者场景，模型正在被像 CPU 或 GPU 资源一样进行满负荷榨取。其次，所谓的“20x”可能指代某种高并发调用策略或特定的高效工作流配置，说明技术社区正在探索通过技术手段最大化模型产出。这种现象可能会迫使 Anthropic 等厂商重新思考其产品的配额管理与商业架构，如何在不滥用的情况下满足专业开发者日益增长的算力饥渴，将是未来 AI 供给侧的一大挑战。这也预示着 AI 编程工具的竞争将从模型性能逐渐转向成本控制和供应能力的比拼。

💡 核心观点：AI已从辅助工具进化为核心算力基础设施，现有订阅制的配额限制正成为制约高强度AI开发的瓶颈。

原文链接：Linux.do

2小时前
Arena 分享真实世界 agent eval

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Wei-Lin Chiang。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:26:10 开始）

分享内容

Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。

这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。

字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。

轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。第二层是方法或案例：这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

Arena 这场把 Day 2 的 eval 主题拉到收尾。前面讲了生成候选、优化 prompt、记忆、实验 trace、性能搜索，最后仍然需要一个评估系统判断 agent 有没有正确探索、有没有浪费、有没有在失败后恢复。

真实世界 eval 和静态 benchmark 的差异在于，环境会变化，工具会失败，信息会不完整。agent 的能力不是只体现在知道答案，而是体现在它怎样收集信息、怎样确认假设、怎样避免无意义动作。

这场分享的核心内容，是下一代 agent eval 要从结果分数变成轨迹审计。答案只是末端，过程同样重要。能解释路径、成本、失败边界和恢复能力的 eval，才有资格给 agent 更大的权限。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
Artificial Analysis 分享智能成本曲线

Trends in AI 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 George Cameron, Micah Hill-Smith。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:05:05 开始）

分享内容

George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。

字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。

这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。

Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。

分享结构

这场分享的结构比较清楚：先用 Trends in AI 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。第二层是方法或案例：字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场分享给前面的技术内容补了一层商业约束。Richard Socher 的 Eureka Machine、W&B 的 Arya、Aiden 的公开竞赛、GEPA 的多轮优化，都需要计算预算。智能价格曲线下降，会直接改变这些系统能不能规模化运行。

它也提醒团队不要只问“哪个模型最强”。更好的问题是，在某一类任务里，每个正确结果花多少钱、耗时多久、失败后重试成本多少。agent 系统的成本不是单次 API 账单，而是完整轨迹的成本。

这场分享的会议价值，是把 autoresearch 从技术可行性拉到经济可行性。模型越来越便宜，会扩大 loop 的使用范围；但成本下降也会掩盖浪费。只有把质量、价格和轨迹一起看，智能才会变成可管理资源。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
Closing Keynote 讨论人的责任边界

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Addy Osmani。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 07:48:00 开始）

分享内容

Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。

他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。

但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。

这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。第二层是方法或案例：他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

分享里一个重要区分是，agent 可以 follow runbook，但不能 inherit consequences。系统出错时，问题不是“模型为什么这样做”就结束，而是要追问谁理解了 policy、谁批准了权限、谁接受了风险、谁负责修复流程。

这也解释了为什么验证、trace 和 eval 在 Day 2 反复出现。它们不只是技术工具，也是责任工具。没有记录和证据，人类无法对自动化结果负责；没有责任边界，系统越自动，事故越难复盘。

Addy 这场给整天内容做了收束：AI 工程师的工作会继续上移。手工执行会被压缩，单次技巧会变便宜，长期留下来的能力是定义目标、设计系统、承担判断，并让错误能被追责和修正。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前
AI Village 分享长周期多 agent 行为评估

Autoresearch in a Multi-Agent AI Village 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Erina Karati, Arunachalam Manikandan。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 06:55:05 开始）

分享内容

Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。

这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？

这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。

Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。

分享结构

这场分享的结构比较清楚：先用 Autoresearch in a Multi-Agent AI Village 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。第二层是方法或案例：这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这种设计很重要。它防止模型随意重写整个应用，也防止模型直接 gaming evaluation。系统给 agent 一个明确的搜索空间：如果来源归属消失，就改记忆写入规则；如果谣言变成事实，就改不确定性处理；如果角色不重新计划，就改 replanning trigger。

这场还强调 controlled scenarios。社交行为如果完全开放，很难判断系统是否变好。把场景控制住，才能反复运行、比较分数、保留有效改动、回滚无效改动。长周期 agent 需要实验，而不是一次好看的 demo。

AI Village 这场的会议价值，是把 autoresearch 放到 messy state 里验证。游戏只是例子，模式可以迁移到客服 agent、个人 agent、coding agent 和其他长任务系统：冻结 harness，缩小可编辑面，评分真实行为，保留通过测试的改动。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

2小时前

能回答和能行动不是一回事

proof-carrying code 的旧思想重新有用

软件工厂越自动化，proof 越重要

prompt injection 不是小漏洞

proof 的价值是缩小信任边界

proof 不是所有场景的答案，但会成为高风险动作的门槛

来源与说明

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

事件分析

AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

事件分析

Arena 分享真实世界 agent eval

分享内容

分享结构

会议脉络

来源说明

Artificial Analysis 分享智能成本曲线

分享内容

分享结构

会议脉络

来源说明

Closing Keynote 讨论人的责任边界

分享内容

分享结构

会议脉络

来源说明

AI Village 分享长周期多 agent 行为评估

分享内容

分享结构

会议脉络

来源说明

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入