上下文即软件,权重即硬件:为何单纯扩大上下文无法取代模型微调

文章深入探讨了AI领域中“长上下文”与“模型微调”的争论。作者提出,通过 KV Cache 实现的上下文学习本质上是在固定的“硬件”(权重)上运行临时的“软件”,虽然灵活但受限于预训练分布的“元学习天花板”。相比之下,权重更新(微调)相当于重新设计芯片硬件,能以 O(1) 的推理成本创建全新的内部表征,突破预训练边界。文章结论指出,真正的持续学习不应仅依赖无限扩大的上下文窗口,而应像人脑的海马体与新皮层一样,结合上下文的灵活性与权重更新的持久性。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册