针对AI Agent的最新研究推出了SkillsBench基准测试,通过86项任务和7308条轨迹评估了“技能”对智能体的实际增益。结果显示,人工精心策划的技能能将任务通过率平均提升16.2%,且小模型配合技能甚至能匹敌大模型。然而,结论极具颠覆性:由模型“自生成”的技能(Self-generated Skills)平均没有带来任何收益。这表明当前大模型无法可靠地编写出它们自己能受益的程序性知识,Agent的进化仍高度依赖人工干预而非自主学习。
原文链接:Hacker News
针对AI Agent的最新研究推出了SkillsBench基准测试,通过86项任务和7308条轨迹评估了“技能”对智能体的实际增益。结果显示,人工精心策划的技能能将任务通过率平均提升16.2%,且小模型配合技能甚至能匹敌大模型。然而,结论极具颠覆性:由模型“自生成”的技能(Self-generated Skills)平均没有带来任何收益。这表明当前大模型无法可靠地编写出它们自己能受益的程序性知识,Agent的进化仍高度依赖人工干预而非自主学习。
原文链接:Hacker News
评论前必须登录!
立即登录 注册