Moonshot AI(Kimi 团队)发布了一种名为“Attention Residuals”的新型架构,旨在改进标准 Transformer 的残差连接机制。传统连接采用固定权重累加,容易导致深层网络中特征的稀释;而 AttnRes 引入了“深度注意力”,让每一层能根据输入内容动态且有选择地聚合之前的层表示。通过 Block AttnRes 变体,该技术将内存复杂度降低至可实用的水平。实验显示,该架构在缩放定律上表现优异,并在数学、代码生成及复杂推理任务中带来了显著性能提升,证明了其作为即插即用组件在提升大模型训练与推理效率方面的巨大潜力。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册