据Hugging Face最新合并的代码请求显示,智谱AI下一代模型GLM-5在架构上进行了重大调整,不再沿用旧路线,而是全面复用了DeepSeek-V3的DSA稀疏注意力机制与多标记预测(MTP)技术。GLM-5采用78层Transformer结构,配置256个专家,总参数量预估高达700B至800B,上下文窗口提升至202K。此外,OpenRouter上疑似GLM-5的“pony-alpha”模型表现出色,展现出极强的代码生成能力,有望在开源界冲击新的SOTA。
原文链接:Linux.do
据Hugging Face最新合并的代码请求显示,智谱AI下一代模型GLM-5在架构上进行了重大调整,不再沿用旧路线,而是全面复用了DeepSeek-V3的DSA稀疏注意力机制与多标记预测(MTP)技术。GLM-5采用78层Transformer结构,配置256个专家,总参数量预估高达700B至800B,上下文窗口提升至202K。此外,OpenRouter上疑似GLM-5的“pony-alpha”模型表现出色,展现出极强的代码生成能力,有望在开源界冲击新的SOTA。
原文链接:Linux.do
评论前必须登录!
立即登录 注册