智谱GLM-5架构大曝光:复用DeepSeek-V3设计,模型参数或达800B

据Hugging Face最新合并的代码请求显示,智谱AI下一代模型GLM-5在架构上进行了重大调整,不再沿用旧路线,而是全面复用了DeepSeek-V3的DSA稀疏注意力机制与多标记预测(MTP)技术。GLM-5采用78层Transformer结构,配置256个专家,总参数量预估高达700B至800B,上下文窗口提升至202K。此外,OpenRouter上疑似GLM-5的“pony-alpha”模型表现出色,展现出极强的代码生成能力,有望在开源界冲击新的SOTA。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册