Han Xiao 分享检索里的 test-time compute

分类：未分类阅读() 评论(0)

Autoresearch for Dense Retrieval 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Han Xiao。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 02:20:40 开始）

分享内容

Han Xiao 的分享把自动研究落到一个具体问题：dense retrieval。通常大家谈 test-time compute，会想到大推理模型在回答前多想几步；他展示的是，冻结的 embedding model 也可以通过推理时搜索获得提升。

官方描述里给出实验设置：系统用 agentic program-search loop 跑了 144 代，探索 144 个候选程序，得到 12 个 Pareto-optimal programs。成本从单次 baseline 的 1.2 倍到 14.7 倍不等，并且在 14 个 MMTEB 检索任务上提升 nDCG@10。

这些数字说明两件事。第一，系统不是盲目堆算力，而是在质量和成本之间找到一组可选方案。第二，提升不是只在单一数据集上发生，而是跨法律、金融、长文档和通用任务等不同检索场景。

分享中提到，搜索过程重新发现了 Rocchio pseudo-relevance feedback、ColBERT-style MaxSim、reciprocal rank fusion、Fisher linear discriminant 等经典方法。这个结果很有意思：自动研究不一定每次都发明全新概念，有时会在组合空间里重新找到被人类验证过的结构。

分享结构

这场分享的结构比较清楚：先用 Autoresearch for Dense Retrieval 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Han Xiao 的分享把自动研究落到一个具体问题：dense retrieval。通常大家谈 test-time compute，会想到大推理模型在回答前多想几步；他展示的是，冻结的 embedding model 也可以通过推理时搜索获得提升。第二层是方法或案例：官方描述里给出实验设置：系统用 agentic program-search loop 跑了 144 代，探索 144 个候选程序，得到 12 个 Pareto-optimal programs。成本从单次 baseline 的 1.2 倍到 14.7 倍不等，并且在 14 个 MMTEB 检索任务上提升 nDCG@10。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这些数字说明两件事。第一，系统不是盲目堆算力，而是在质量和成本之间找到一组可选方案。第二，提升不是只在单一数据集上发生，而是跨法律、金融、长文档和通用任务等不同检索场景。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：分享中提到，搜索过程重新发现了 Rocchio pseudo-relevance feedback、ColBERT-style MaxSim、reciprocal rank fusion、Fisher linear discriminant 等经典方法。这个结果很有意思：自动研究不一定每次都发明全新概念，有时会在组合空间里重新找到被人类验证过的结构。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场的工程含义很明确。检索质量不好时，不一定马上换更大的模型或重新训练 embedding。可以先尝试在推理阶段增加计算：多次查询、候选融合、句子粒度 MaxSim、rerank、feedback。很多时候，额外搜索比训练新模型更快进入生产。

这也解释了 autoresearch 为什么适合从检索开始。检索有清楚的指标，比如 nDCG@10；有可重复的数据集；有成本约束；也有很多可搜索的程序结构。agent 生成候选后，系统能立刻判断是否变好。

Han Xiao 这场分享把 Day 2 的大愿景压到一个可执行样本里。自动研究不是抽象口号，而是让系统在受控空间里试程序、量指标、保留前沿方案。检索只是开始，同样的方法还可以迁移到排序、压缩、推理策略和其他可测优化问题。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

AI Agent AI编程大模型检索增强测试时计算

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

针对开发者在采用 Claude Code、Codex 及 Antigravity 等本地 AI Agent 进行编程时面临的会话历史检索困难与项目路径管理混乱等痛点，开发者 mahui 近日开源了一款名为 VibeTrail 的本地管理工具。该工具旨在打通不同 AI 编程助手的本地数据孤岛，为分散在 ~/.claude 和 ~/.codex 等配置目录中的会话记录提供统一的可视化入口与搜索能力。VibeTrail 核心功能包括按工作目录聚合的项目总览，使开发者能一目了然地看到所有涉及 AI 辅助的项目及其最近动态；内置基于 ripgrep crate 的全文搜索引擎，允许用户跨所有 Agent 或针对特定项目进行内容检索，并支持高亮跳转至具体对话节点；以及一键 Resume 功能，集成对 Terminal、iTerm2、Ghostty 等主流终端的支持，实现自动切目录并唤醒会话上下文。在技术实现上，软件采用 Rust + Tauri 架构，坚持“零数据库、零索引、无后台常驻”的轻量化设计，直接读取本地文件以保证隐私与性能。实测表明，在处理 2 万个会话（3.4GB 数据）时，打开延迟仅为 0.06 秒。目前项目已在 GitHub 发布，采用 Apache-2.0 协议，并设计了开放的 Provider 协议以支持接入更多 AI Agent。

事件分析

VibeTrail 的出现揭示了 AI 辅助编程从“单点代码生成”向“全流程知识管理”演进的趋势。随着 AI 渗透率提升，本地会话文件实际上构成了包含项目上下文、逻辑决策与调试记录的隐性知识库，但官方客户端的检索能力普遍滞后。该工具利用 Rust 的高性能与 ripgrep 的成熟算法，在无需复杂数据库索引的情况下实现了毫秒级全文检索，为解决“AI 垃圾数据堆积”与“项目上下文断连”提供了极具性价比的方案。其开放 Provider 协议的设计尤为重要，预示着未来开发者将拥有统一的“AI 活动日志层”，能够跨平台聚合不同工具的生成数据，这不仅是效率工具的补充，更是构建个人 AI 开发知识库基础设施的一次尝试。

💡 核心观点：随着 AI 编程成为常态，本地会话数据正成为核心资产，轻量级、跨平台的统一检索工具将是提升开发效率的关键基础设施。

原文链接：V2EX 分享发现

2小时前
AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

近日，科技论坛 Linux.do 上的一则帖子引发了关于 AI 开发强度的讨论。一位用户发帖称，为了运行名为“Fable 5”的任务，启用了两个 Claude Max 20x 账号进行高强度作业。结果在短短 24 小时内，这两个账号的每周使用额度即被彻底“蹬”完，直言“明天刷新”，并戏谑地询问是否需要开启第三个账号以维持工作流。这一事件虽然是个案，却极具代表性。它不仅展示了当前顶尖 AI 模型（如 Claude 3.5 Sonnet 等）在“20x”倍速或高并发模式下的极高算力消耗，也反映了开发者对高质量 AI 推理的巨大渴求。当单个账号的周限额在一天内耗尽，意味着 AI 已不再仅仅是辅助查询的聊天机器人，而是深入到了核心生产环节，成为了高频调用的“算力引擎”。这种对 API 额度的极限压测，侧面印证了当前 AI 编程和自动化任务的高景气度，同时也暴露了现有 SaaS 订阅制与高强度工业级开发需求之间的矛盾。

事件分析

这一事件揭示了 AI 应用层正在发生的质变。首先，“24小时耗尽双账号周限额”表明，对于重度开发者而言，AI 服务的消耗速率已远超普通消费者场景，模型正在被像 CPU 或 GPU 资源一样进行满负荷榨取。其次，所谓的“20x”可能指代某种高并发调用策略或特定的高效工作流配置，说明技术社区正在探索通过技术手段最大化模型产出。这种现象可能会迫使 Anthropic 等厂商重新思考其产品的配额管理与商业架构，如何在不滥用的情况下满足专业开发者日益增长的算力饥渴，将是未来 AI 供给侧的一大挑战。这也预示着 AI 编程工具的竞争将从模型性能逐渐转向成本控制和供应能力的比拼。

💡 核心观点：AI已从辅助工具进化为核心算力基础设施，现有订阅制的配额限制正成为制约高强度AI开发的瓶颈。

原文链接：Linux.do

3小时前
Arena 分享真实世界 agent eval

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Wei-Lin Chiang。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:26:10 开始）

分享内容

Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。

这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。

字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。

轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Wei-Lin Chiang 从 Arena 的角度分享 real-world agent evals。他的背景是 UC Berkeley 的 AI eval 研究，重点是把稳健、可扩展的评估方法带到真实环境里，而不是只停在离线 benchmark。第二层是方法或案例：这场和前面的 Artificial Analysis 形成一组。Artificial Analysis 更关注模型能力和成本曲线，Arena 更关注 agent 在真实任务里的行为。对 agent 来说，单题回答正确只是起点，更难的是长轨迹、工具调用、环境探索和任务完成。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：字幕里提到，agent 会像人一样探索环境：搜索 Slack，查看图片，读取文件，写文件，做临时分析，再把这些内容汇总成结果。这样的任务不能只看最终答案，因为答案背后有一条很长的行动轨迹。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：轨迹评估还要看成本。每一次 tool call 都会产生输出 token，后面的输出又会进入下一轮输入。长任务里，错误探索和重复操作会让成本快速变大。一个 agent 看似完成任务，但如果花了过多步骤，真实价值可能很低。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

Arena 这场把 Day 2 的 eval 主题拉到收尾。前面讲了生成候选、优化 prompt、记忆、实验 trace、性能搜索，最后仍然需要一个评估系统判断 agent 有没有正确探索、有没有浪费、有没有在失败后恢复。

真实世界 eval 和静态 benchmark 的差异在于，环境会变化，工具会失败，信息会不完整。agent 的能力不是只体现在知道答案，而是体现在它怎样收集信息、怎样确认假设、怎样避免无意义动作。

这场分享的核心内容，是下一代 agent eval 要从结果分数变成轨迹审计。答案只是末端，过程同样重要。能解释路径、成本、失败边界和恢复能力的 eval，才有资格给 agent 更大的权限。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
Artificial Analysis 分享智能成本曲线

Trends in AI 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 George Cameron, Micah Hill-Smith。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 08:05:05 开始）

分享内容

George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。

字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。

这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。

Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。

分享结构

这场分享的结构比较清楚：先用 Trends in AI 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强，而是讨论 intelligence cost：模型能力、价格、延迟和吞吐之间的权衡。第二层是方法或案例：字幕里提到，token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于，以前因为成本太高跑不起的 agent loop，正在逐渐变成可日常使用的工作流。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点，loop 的总成本就会明显下降；单次调用慢一点，长任务体验也会明显变差。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Artificial Analysis 作为 benchmark 公司，强调的也不只是最高分。真实系统选择模型时，要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强，但如果成本太高或延迟太大，可能并不适合高频 loop。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场分享给前面的技术内容补了一层商业约束。Richard Socher 的 Eureka Machine、W&B 的 Arya、Aiden 的公开竞赛、GEPA 的多轮优化，都需要计算预算。智能价格曲线下降，会直接改变这些系统能不能规模化运行。

它也提醒团队不要只问“哪个模型最强”。更好的问题是，在某一类任务里，每个正确结果花多少钱、耗时多久、失败后重试成本多少。agent 系统的成本不是单次 API 账单，而是完整轨迹的成本。

这场分享的会议价值，是把 autoresearch 从技术可行性拉到经济可行性。模型越来越便宜，会扩大 loop 的使用范围；但成本下降也会掩盖浪费。只有把质量、价格和轨迹一起看，智能才会变成可管理资源。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
Closing Keynote 讨论人的责任边界

Closing Keynote 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Addy Osmani。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 07:48:00 开始）

分享内容

Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。

他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。

但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。

这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。

分享结构

这场分享的结构比较清楚：先用 Closing Keynote 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Addy Osmani 的 closing keynote 把 Day 2 的技术讨论拉回到人的位置。字幕里反复出现 edge、judgment、answerability 和 signature。模型能做的事情越来越多，人的问题就变成：哪些决定必须有人负责。第二层是方法或案例：他用了一个 decay test。速度会衰减，recall 会进入 harness，verification 会进入 eval、静态检查和模型 critique，taste 也会在模型学到更多偏好后被压缩。很多今天看起来稀缺的技能，会被模型和工具持续降价。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：但 signature 的半衰期更长。signature 不是签名装饰，而是谁站在最终结果背后。agent 可以选择、路由、合并、升级权限，也可以在 policy 内执行，但 execution 和 responsibility 是两回事。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：这段和当天的自动研究主题并不冲突。前面所有分享都在扩大 agent 的行动边界：它能探索、能读 trace、能优化参数、能跑实验、能参与社区协作。Addy 提醒的是，行动边界扩大以后，责任边界更要清楚。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

分享里一个重要区分是，agent 可以 follow runbook，但不能 inherit consequences。系统出错时，问题不是“模型为什么这样做”就结束，而是要追问谁理解了 policy、谁批准了权限、谁接受了风险、谁负责修复流程。

这也解释了为什么验证、trace 和 eval 在 Day 2 反复出现。它们不只是技术工具，也是责任工具。没有记录和证据，人类无法对自动化结果负责；没有责任边界，系统越自动，事故越难复盘。

Addy 这场给整天内容做了收束：AI 工程师的工作会继续上移。手工执行会被压缩，单次技巧会变便宜，长期留下来的能力是定义目标、设计系统、承担判断，并让错误能被追责和修正。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前
AI Village 分享长周期多 agent 行为评估

Autoresearch in a Multi-Agent AI Village 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Erina Karati, Arunachalam Manikandan。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 06:55:05 开始）

分享内容

Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。

这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？

这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。

Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。

分享结构

这场分享的结构比较清楚：先用 Autoresearch in a Multi-Agent AI Village 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄，里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。第二层是方法或案例：这场真正关心的不是游戏画面，而是长期状态。一个角色听到芒果打折的传言，把消息告诉另一个角色，经过多轮事件后，系统还能不能记得消息来源？不确定性会不会被说成事实？角色是否会基于自己实际知道的内容行动？这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好，但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失，后面可能变成整个村庄的错误共识。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：Project Paradox 的做法是先冻结 harness，再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这种设计很重要。它防止模型随意重写整个应用，也防止模型直接 gaming evaluation。系统给 agent 一个明确的搜索空间：如果来源归属消失，就改记忆写入规则；如果谣言变成事实，就改不确定性处理；如果角色不重新计划，就改 replanning trigger。

这场还强调 controlled scenarios。社交行为如果完全开放，很难判断系统是否变好。把场景控制住，才能反复运行、比较分数、保留有效改动、回滚无效改动。长周期 agent 需要实验，而不是一次好看的 demo。

AI Village 这场的会议价值，是把 autoresearch 放到 messy state 里验证。游戏只是例子，模式可以迁移到客服 agent、个人 agent、coding agent 和其他长任务系统：冻结 harness，缩小可编辑面，评分真实行为，保留通过测试的改动。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

3小时前

Han Xiao 分享检索里的 test-time compute

分享内容

分享结构

会议脉络

来源说明

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

事件分析

AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

事件分析

Arena 分享真实世界 agent eval

分享内容

分享结构

会议脉络

来源说明

Artificial Analysis 分享智能成本曲线

分享内容

分享结构

会议脉络

来源说明

Closing Keynote 讨论人的责任边界

分享内容

分享结构

会议脉络

来源说明

AI Village 分享长周期多 agent 行为评估

分享内容

分享结构

会议脉络

来源说明

最新文章

热门专题

热门标签

网站统计

分享内容

分享结构

会议脉络

来源说明

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

开源工具 VibeTrail：统一管理 Claude Code 等本地 AI 会话，支持全文搜索与一键 Resume

事件分析

AI编程强度飙升：开发者24小时耗尽双Claude Max周限额

事件分析

Arena 分享真实世界 agent eval

分享内容

分享结构

会议脉络

来源说明

Artificial Analysis 分享智能成本曲线

分享内容

分享结构

会议脉络

来源说明

Closing Keynote 讨论人的责任边界

分享内容

分享结构

会议脉络

来源说明

AI Village 分享长周期多 agent 行为评估

分享内容

分享结构

会议脉络

来源说明

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入