文章深入探讨了AI领域中“长上下文”与“模型微调”的争论。作者提出,通过 KV Cache 实现的上下文学习本质上是在固定的“硬件”(权重)上运行临时的“软件”,虽然灵活但受限于预训练分布的“元学习天花板”。相比之下,权重更新(微调)相当于重新设计芯片硬件,能以 O(1) 的推理成本创建全新的内部表征,突破预训练边界。文章结论指出,真正的持续学习不应仅依赖无限扩大的上下文窗口,而应像人脑的海马体与新皮层一样,结合上下文的灵活性与权重更新的持久性。
原文链接:Hacker News
文章深入探讨了AI领域中“长上下文”与“模型微调”的争论。作者提出,通过 KV Cache 实现的上下文学习本质上是在固定的“硬件”(权重)上运行临时的“软件”,虽然灵活但受限于预训练分布的“元学习天花板”。相比之下,权重更新(微调)相当于重新设计芯片硬件,能以 O(1) 的推理成本创建全新的内部表征,突破预训练边界。文章结论指出,真正的持续学习不应仅依赖无限扩大的上下文窗口,而应像人脑的海马体与新皮层一样,结合上下文的灵活性与权重更新的持久性。
原文链接:Hacker News
评论前必须登录!
立即登录 注册