Kimi祭出架构新解:Attention Residuals重塑残差连接,攻克Transformer深层信息稀释难题

月之暗面Kimi最新研究《Attention Residuals》针对Transformer架构中“深层信息被稀释”的痛点提出了革新方案。该研究推翻了沿用十年的“等权求和”残差连接,将其升级为带学习权重的“注意力聚合”。这种设计使得每一层网络都能智能地“回望”并选择性调用前面任意层的信息,而非机械叠加。相比DenseFormer等方案,该方法在工程上更自然且易于规模化,能在同等算力下训练出更强模型,且推理几乎无额外开销。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册