作者复现了Andrej Karpathy提出的“AutoResearch”概念,通过Claude Code Agent对自己旧有的研究代码进行自动化迭代优化。实验设定了一个闭环流程:Agent根据评估指标反复修改代码、训练并提交结果。在42次实验中,AI成功将模型性能提升了54%,主要通过修复代码Bug(如温度参数限制)和超参数调优实现。然而,在涉及复杂架构调整等高阶创新任务时,Agent的成功率显著下降。这一实验生动展示了当前LLM Agent在处理枯燥、明确的优化任务上极其高效,但在面对“未知”的创造性工作时仍存在明显边界。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册