Trends in AI 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 George Cameron, Micah Hill-Smith。本文只整理会议内容和分享脉络,不做个人使用心得。
原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 08:05:05 开始)
分享内容
George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强,而是讨论 intelligence cost:模型能力、价格、延迟和吞吐之间的权衡。
字幕里提到,token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于,以前因为成本太高跑不起的 agent loop,正在逐渐变成可日常使用的工作流。
这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点,loop 的总成本就会明显下降;单次调用慢一点,长任务体验也会明显变差。
Artificial Analysis 作为 benchmark 公司,强调的也不只是最高分。真实系统选择模型时,要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强,但如果成本太高或延迟太大,可能并不适合高频 loop。
分享结构
这场分享的结构比较清楚:先用 Trends in AI 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。
按内容顺序看,第一层是背景:George Cameron 和 Micah Hill-Smith 代表 Artificial Analysis 做 Trends in AI。这个分享的核心不是单纯比较哪家模型更强,而是讨论 intelligence cost:模型能力、价格、延迟和吞吐之间的权衡。 第二层是方法或案例:字幕里提到,token prices 还在以每年 5 到 10 倍的速度下降。这个数字的意义在于,以前因为成本太高跑不起的 agent loop,正在逐渐变成可日常使用的工作流。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。
第三层是工程约束:这个主题和 Day 2 的 autoresearch 关系很直接。自动研究通常需要多轮尝试、多次工具调用、大量上下文和反复评估。单次调用便宜一点,loop 的总成本就会明显下降;单次调用慢一点,长任务体验也会明显变差。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。
关键细节集中在后半段:Artificial Analysis 作为 benchmark 公司,强调的也不只是最高分。真实系统选择模型时,要看能力、价格、速度、上下文、工具调用稳定性、更新节奏和可用性。一个模型在榜单上很强,但如果成本太高或延迟太大,可能并不适合高频 loop。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。
会议脉络
这场分享给前面的技术内容补了一层商业约束。Richard Socher 的 Eureka Machine、W&B 的 Arya、Aiden 的公开竞赛、GEPA 的多轮优化,都需要计算预算。智能价格曲线下降,会直接改变这些系统能不能规模化运行。
它也提醒团队不要只问“哪个模型最强”。更好的问题是,在某一类任务里,每个正确结果花多少钱、耗时多久、失败后重试成本多少。agent 系统的成本不是单次 API 账单,而是完整轨迹的成本。
这场分享的会议价值,是把 autoresearch 从技术可行性拉到经济可行性。模型越来越便宜,会扩大 loop 的使用范围;但成本下降也会掩盖浪费。只有把质量、价格和轨迹一起看,智能才会变成可管理资源。
来源说明
本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。









评论前必须登录!
立即登录 注册