代码暴增1.2万行:DeepSeek疑似在为“巨型MoE”模型与Blackwell架构做准备

DeepSeek官方代码库DeepGEMM突发重大更新,一次性合并了超过1.2万行代码。新增代码显露出“FP4量化”、“Mega MoE”及“Blackwell适配”等关键技术信号。这一动态强烈暗示DeepSeek正在训练或部署一个规模远超V3的超大模型,该模型大到必须依赖FP4量化才能维持推理效率,且已针对英伟达下一代Blackwell芯片完成了底层硬件级优化。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册