Memory Harnesses for Long-Running Research Agents 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Stefania Druga。本文只整理会议内容和分享脉络,不做个人使用心得。
原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 02:50:45 开始)
分享内容
Stefania Druga 来自 Sakana AI,她的分享聚焦 long-running research agents。这样的 agent 会跑上百轮,读论文、做实验、写草稿。她指出,长任务里经常先坏掉的不是模型本身,而是模型周围的 harness,尤其是记忆层。
问题很具体:agent 可能忘记 80 轮前做过的决定,重复已经完成的工作,或者从最初问题漂移到另一个方向。对短任务来说,这些问题不明显;对长跑 research agent 来说,它们会让整个轨迹失去可信度。
Stefania 把这件事放到 binding-constraint thesis 里看:长期任务的可靠性不只由模型能力决定,也由 harness 决定。模型会推理,但 harness 要负责把状态、证据、决策和历史暴露给模型。记忆层设计不好,模型越努力,浪费越大。
分享里提到几类模式:three-tier memory、progressive disclosure、recall-first compaction、sub-agent isolation,以及 vector database 之外的 architectural memory。它们共同解决一个问题:什么信息该被保留,什么时候拿出来,怎样防止上下文腐烂。
分享结构
这场分享的结构比较清楚:先用 Memory Harnesses for Long-Running Research Agents 的问题背景引入,再把重点落到 Memory & Continual Learning 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。
按内容顺序看,第一层是背景:Stefania Druga 来自 Sakana AI,她的分享聚焦 long-running research agents。这样的 agent 会跑上百轮,读论文、做实验、写草稿。她指出,长任务里经常先坏掉的不是模型本身,而是模型周围的 harness,尤其是记忆层。 第二层是方法或案例:问题很具体:agent 可能忘记 80 轮前做过的决定,重复已经完成的工作,或者从最初问题漂移到另一个方向。对短任务来说,这些问题不明显;对长跑 research agent 来说,它们会让整个轨迹失去可信度。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。
第三层是工程约束:Stefania 把这件事放到 binding-constraint thesis 里看:长期任务的可靠性不只由模型能力决定,也由 harness 决定。模型会推理,但 harness 要负责把状态、证据、决策和历史暴露给模型。记忆层设计不好,模型越努力,浪费越大。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。
关键细节集中在后半段:分享里提到几类模式:three-tier memory、progressive disclosure、recall-first compaction、sub-agent isolation,以及 vector database 之外的 architectural memory。它们共同解决一个问题:什么信息该被保留,什么时候拿出来,怎样防止上下文腐烂。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。
会议脉络
字幕里有一句非常实际:bad memory is expensive。坏记忆不只是效果差,还会消耗更多 token,把 agent 带向错误方向。一个错误 recall 可能让后面几十轮都在修错问题,这种成本在长任务里会被放大。
这场和 Day 2 其他分享的连接很强。Richard Socher 想做 Eureka Machine,W&B 想让 agent 读实验 trace,Aiden 进入公开研究竞赛。所有这些系统都需要记得自己做过什么、为什么做、结果怎样。
这场分享的核心内容可以归纳为:长跑 agent 需要结构化记忆,而不是更长的上下文窗口。决策账本、证据索引、状态摘要、失败记录和可复用经验,需要被明确设计进 harness。否则,自动研究会在长周期里反复丢失自己的历史。
来源说明
本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。









评论前必须登录!
立即登录 注册