Autoresearch in the wild 分享现实环境里的自我改进

Autoresearch in the wild 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Roland Gavrilescu, Julian Bright。本文只整理会议内容和分享脉络,不做个人使用心得。

原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 06:30:05 开始)

分享内容

Roland Gavrilescu 和 Julian Bright 的分享叫 Autoresearch in the wild。两人提到自己在 xAI 做 agent infrastructure 的经历,然后离开去研究 always-on、long-running horizon tasks。这个背景让这场更接近工程现场,而不是实验室演示。

官方描述里有一个判断:现在已经出现 model capability overhang,模型能力被周围系统限制。也就是说,很多模型已经能做更多事,但端到端系统没有跟上,导致能力无法稳定转化成结果。

这场讨论的是 compound AI systems 的持续自我改进。系统要从真实运行中收集信号,识别失败,调整架构、策略和流程,再观察下一轮是否变好。这里的自我改进不是单个 prompt 的自我改写,而是整个系统从反馈里更新。

现实环境和 benchmark 的区别在于噪声更多。输入不干净,工具会失败,用户目标会变化,权限和成本也会限制 agent 行动。因此 in the wild 的自动研究更需要边界、日志、回滚和责任划分。

分享结构

这场分享的结构比较清楚:先用 Autoresearch in the wild 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。

按内容顺序看,第一层是背景:Roland Gavrilescu 和 Julian Bright 的分享叫 Autoresearch in the wild。两人提到自己在 xAI 做 agent infrastructure 的经历,然后离开去研究 always-on、long-running horizon tasks。这个背景让这场更接近工程现场,而不是实验室演示。 第二层是方法或案例:官方描述里有一个判断:现在已经出现 model capability overhang,模型能力被周围系统限制。也就是说,很多模型已经能做更多事,但端到端系统没有跟上,导致能力无法稳定转化成结果。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。

第三层是工程约束:这场讨论的是 compound AI systems 的持续自我改进。系统要从真实运行中收集信号,识别失败,调整架构、策略和流程,再观察下一轮是否变好。这里的自我改进不是单个 prompt 的自我改写,而是整个系统从反馈里更新。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段:现实环境和 benchmark 的区别在于噪声更多。输入不干净,工具会失败,用户目标会变化,权限和成本也会限制 agent 行动。因此 in the wild 的自动研究更需要边界、日志、回滚和责任划分。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场和 Derek Nee 对巨型 agent 的批评很接近。一个拥有所有工具、所有文件、没有责任边界的 agent,并不会自然变成公司操作系统。真正能跑的系统,需要 scoped workers、memory、proof 和 check-in loop

会议里的其他分享提供了相同方向的部件:Sakana 讲记忆层,Sonar 讲验证纪律,Arena 讲真实轨迹评估,GEPA 讲从失败里优化文本参数。Roland 和 Julian 这场把这些部件放到“真实环境长期运行”的框架下。

这场分享的重点是:现实环境里的 autoresearch 不是放开 agent 乱跑,而是设计可改进的系统。哪些地方允许改,哪些指标证明变好,失败时怎么回退,这些问题比模型单次能力更重要。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册