DeepSeek FlashMLA源码库近日大幅更新,新增对MODEL1新架构及英伟达SM100芯片的支持。代码显示,MODEL1并非对V3的修补,而是通过回归512标准维度、首创“值向量位置感知”及疑似引入Engram和DSA机制,实现了显存效率与推理精度的双重跨越。这一更新预示着DeepSeek下一代模型在底层架构上的重大革新。
原文链接:Linux.do
DeepSeek FlashMLA源码库近日大幅更新,新增对MODEL1新架构及英伟达SM100芯片的支持。代码显示,MODEL1并非对V3的修补,而是通过回归512标准维度、首创“值向量位置感知”及疑似引入Engram和DSA机制,实现了显存效率与推理精度的双重跨越。这一更新预示着DeepSeek下一代模型在底层架构上的重大革新。
原文链接:Linux.do
评论前必须登录!
立即登录 注册