DeepSeek mHC 复现:颠覆传统残差连接,重塑 Transformer 架构

自2016年以来,无论是GPT-5、Claude还是Gemini,所有主流Transformer模型均沿用单一残差连接设计 $x + F(x)$。本文深入探讨了DeepSeek提出的mHC架构,该设计大胆挑战了这一传统范式,通过拓宽残差连接路径,试图打破信息流的单一限制。文章详细复现了该架构,分析了其对深层网络梯度传播及稳定性的潜在影响,这可能是AI底层架构自问世以来最具颠覆性的变革之一。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册