Han Xiao 分享检索里的 test-time compute

Autoresearch for Dense Retrieval 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Han Xiao。本文只整理会议内容和分享脉络,不做个人使用心得。

原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 02:20:40 开始)

分享内容

Han Xiao 的分享把自动研究落到一个具体问题:dense retrieval。通常大家谈 test-time compute,会想到大推理模型在回答前多想几步;他展示的是,冻结的 embedding model 也可以通过推理时搜索获得提升。

官方描述里给出实验设置:系统用 agentic program-search loop 跑了 144 代,探索 144 个候选程序,得到 12 个 Pareto-optimal programs。成本从单次 baseline 的 1.2 倍到 14.7 倍不等,并且在 14 个 MMTEB 检索任务上提升 nDCG@10。

这些数字说明两件事。第一,系统不是盲目堆算力,而是在质量和成本之间找到一组可选方案。第二,提升不是只在单一数据集上发生,而是跨法律、金融、长文档和通用任务等不同检索场景。

分享中提到,搜索过程重新发现了 Rocchio pseudo-relevance feedback、ColBERT-style MaxSim、reciprocal rank fusion、Fisher linear discriminant 等经典方法。这个结果很有意思:自动研究不一定每次都发明全新概念,有时会在组合空间里重新找到被人类验证过的结构。

分享结构

这场分享的结构比较清楚:先用 Autoresearch for Dense Retrieval 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。

按内容顺序看,第一层是背景:Han Xiao 的分享把自动研究落到一个具体问题:dense retrieval。通常大家谈 test-time compute,会想到大推理模型在回答前多想几步;他展示的是,冻结的 embedding model 也可以通过推理时搜索获得提升。 第二层是方法或案例:官方描述里给出实验设置:系统用 agentic program-search loop 跑了 144 代,探索 144 个候选程序,得到 12 个 Pareto-optimal programs。成本从单次 baseline 的 1.2 倍到 14.7 倍不等,并且在 14 个 MMTEB 检索任务上提升 nDCG@10。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。

第三层是工程约束:这些数字说明两件事。第一,系统不是盲目堆算力,而是在质量和成本之间找到一组可选方案。第二,提升不是只在单一数据集上发生,而是跨法律、金融、长文档和通用任务等不同检索场景。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段:分享中提到,搜索过程重新发现了 Rocchio pseudo-relevance feedback、ColBERT-style MaxSim、reciprocal rank fusion、Fisher linear discriminant 等经典方法。这个结果很有意思:自动研究不一定每次都发明全新概念,有时会在组合空间里重新找到被人类验证过的结构。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场的工程含义很明确。检索质量不好时,不一定马上换更大的模型或重新训练 embedding。可以先尝试在推理阶段增加计算:多次查询、候选融合、句子粒度 MaxSim、rerank、feedback。很多时候,额外搜索比训练新模型更快进入生产。

这也解释了 autoresearch 为什么适合从检索开始。检索有清楚的指标,比如 nDCG@10;有可重复的数据集;有成本约束;也有很多可搜索的程序结构。agent 生成候选后,系统能立刻判断是否变好。

Han Xiao 这场分享把 Day 2 的大愿景压到一个可执行样本里。自动研究不是抽象口号,而是让系统在受控空间里试程序、量指标、保留前沿方案。检索只是开始,同样的方法还可以迁移到排序、压缩、推理策略和其他可测优化问题。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册