Day 2 topic overview 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Main Stage。本文只整理会议内容和分享脉络,不做个人使用心得。
原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 Full video 开始)
分享内容
AI Engineer World’s Fair 2026 第二天的主舞台,主题可以概括为 autoresearch。它接在第一天的软件工厂之后:第一天讨论 agent 怎么进入软件生产,第二天讨论 agent 怎么进入研究循环。这里的研究不是论文标题里的大词,而是一套连续动作:提出假设、运行实验、读结果、修正方法,再进入下一轮。
上午的开场先给出几个边界。Anthropic 的 Fable 分享讲的是更探索型的模型怎么使用;Sonar 把重点放到验证,强调 Guide、Verify、Solve 的顺序;Amazon AGI Lab 的 Perception Agents 讲 agent 怎么看见真实软件界面;Google DeepMind 的 keynote 则把视角拉到机器学习如何打开新的观察空间。
中段开始进入自动研究的核心。Richard Socher 用 Eureka Machine 描述自动化科学发现的愿景;Han Xiao 证明 test-time compute 不只适合推理模型,也能提升 frozen embedding 的检索质量;Sakana AI 的 Stefania Druga 把长期 research agent 的瓶颈放到记忆 harness;Elie Bakouch 用 nanoGPT speedrun 展示一个适合研究 agent 爬坡的实验场。
下午的分享把这个主题继续落地。W&B 的 Arya 让 agent 读取实验 trace、loss 曲线和异常 run;Aiden 在 OpenAI Parameter Golf 挑战中成为公开贡献者;GEPA 把轨迹反思变成文本参数优化;kernel autoresearch 把搜索循环放到 GPU 性能优化;AI Village 用受控场景测试多 agent 的长期记忆、来源归属和社交一致性。
分享结构
这场分享的结构比较清楚:先用 Day 2 topic overview 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。
按内容顺序看,第一层是背景:AI Engineer World’s Fair 2026 第二天的主舞台,主题可以概括为 autoresearch。它接在第一天的软件工厂之后:第一天讨论 agent 怎么进入软件生产,第二天讨论 agent 怎么进入研究循环。这里的研究不是论文标题里的大词,而是一套连续动作:提出假设、运行实验、读结果、修正方法,再进入下一轮。 第二层是方法或案例:上午的开场先给出几个边界。Anthropic 的 Fable 分享讲的是更探索型的模型怎么使用;Sonar 把重点放到验证,强调 Guide、Verify、Solve 的顺序;Amazon AGI Lab 的 Perception Agents 讲 agent 怎么看见真实软件界面;Google DeepMind 的 keynote 则把视角拉到机器学习如何打开新的观察空间。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。
第三层是工程约束:中段开始进入自动研究的核心。Richard Socher 用 Eureka Machine 描述自动化科学发现的愿景;Han Xiao 证明 test-time compute 不只适合推理模型,也能提升 frozen embedding 的检索质量;Sakana AI 的 Stefania Druga 把长期 research agent 的瓶颈放到记忆 harness;Elie Bakouch 用 nanoGPT speedrun 展示一个适合研究 agent 爬坡的实验场。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。
关键细节集中在后半段:下午的分享把这个主题继续落地。W&B 的 Arya 让 agent 读取实验 trace、loss 曲线和异常 run;Aiden 在 OpenAI Parameter Golf 挑战中成为公开贡献者;GEPA 把轨迹反思变成文本参数优化;kernel autoresearch 把搜索循环放到 GPU 性能优化;AI Village 用受控场景测试多 agent 的长期记忆、来源归属和社交一致性。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。
会议脉络
这一天反复出现的不是“全自动”三个字,而是边界、证据和反馈。每个看起来更自主的系统,背后都需要更清楚的 eval、更细的 trace、更稳定的记忆、更明确的回滚机制。没有这些东西,agent 只是更快地产生候选;有了这些东西,候选才可能变成可复用的研究积累。
收尾几场把讨论拉回现实。Addy Osmani 讲人的位置会从手工执行转到责任和签名;Artificial Analysis 讨论智能成本持续下降,说明以前跑不起的 loop 会逐渐变成日常工作流;Arena 则强调真实世界 agent eval 要看轨迹、工具调用和成本,而不是只看最终答案。
所以,Day 2 的主线不是某一个模型或产品发布,而是一个更大的工程问题:当 AI 进入研究过程,什么样的系统能让它的探索可验证、可复盘、可持续改进。这个问题比“模型会不会做研究”更具体,也更值得工程团队立刻处理。
来源说明
本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。









评论前必须登录!
立即登录 注册