Kimi发布AttnRes架构:用动态注意力机制重塑大模型深层信息流

月之暗面Kimi团队近日发布研究,提出名为“Attention Residuals”(AttnRes)的创新架构技术。针对大语言模型在加深网络时常见的层级贡献稀释问题,该技术摒弃了传统的固定权重残差连接,转而引入跨层级的动态注意力机制。这使得模型每一层都能根据输入内容,主动筛选并聚合前序层级的特征信息。在拥有480亿参数的模型实测中,应用AttnRes后的模型在数学解题、代码生成及中文理解等任务上,表现均显著优于传统架构,为大模型的高效深度化发展提供了新路径。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册