AI Village 分享长周期多 agent 行为评估

Autoresearch in a Multi-Agent AI Village 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Erina Karati, Arunachalam Manikandan。本文只整理会议内容和分享脉络,不做个人使用心得。

原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 06:55:05 开始)

分享内容

Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄,里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。

这场真正关心的不是游戏画面,而是长期状态。一个角色听到芒果打折的传言,把消息告诉另一个角色,经过多轮事件后,系统还能不能记得消息来源?不确定性会不会被说成事实?角色是否会基于自己实际知道的内容行动?

这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好,但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失,后面可能变成整个村庄的错误共识。

Project Paradox 的做法是先冻结 harness,再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。

分享结构

这场分享的结构比较清楚:先用 Autoresearch in a Multi-Agent AI Village 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。

按内容顺序看,第一层是背景:Erina Karati 和 Arunachalam Manikandan 用 Project Paradox 讲 multi-agent AI village。这个系统是一个 3D Unity 村庄,里面的角色有记忆、情绪、信任、规划、移动、物品转移和对话。它用游戏环境承载长周期 agent 行为。 第二层是方法或案例:这场真正关心的不是游戏画面,而是长期状态。一个角色听到芒果打折的传言,把消息告诉另一个角色,经过多轮事件后,系统还能不能记得消息来源?不确定性会不会被说成事实?角色是否会基于自己实际知道的内容行动? 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。

第三层是工程约束:这些问题很适合说明长周期 agent 的难点。单次对话可以看起来很好,但多 agent、多轮传播、长期记忆和社交关系会让错误不断扩散。一个小的来源丢失,后面可能变成整个村庄的错误共识。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段:Project Paradox 的做法是先冻结 harness,再暴露一个小的 editable policy surface。可编辑的内容包括 memory writing policy、retrieval policy、communication prompt、belief 和 trust rules、source attribution、replanning triggers。agent 只能在这些受控区域里搜索改进。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这种设计很重要。它防止模型随意重写整个应用,也防止模型直接 gaming evaluation。系统给 agent 一个明确的搜索空间:如果来源归属消失,就改记忆写入规则;如果谣言变成事实,就改不确定性处理;如果角色不重新计划,就改 replanning trigger。

这场还强调 controlled scenarios。社交行为如果完全开放,很难判断系统是否变好。把场景控制住,才能反复运行、比较分数、保留有效改动、回滚无效改动。长周期 agent 需要实验,而不是一次好看的 demo。

AI Village 这场的会议价值,是把 autoresearch 放到 messy state 里验证。游戏只是例子,模式可以迁移到客服 agent、个人 agent、coding agent 和其他长任务系统:冻结 harness,缩小可编辑面,评分真实行为,保留通过测试的改动。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册