国产大模型的拐点:GLM-5 与 MiniMax M2.5 实测,前端生成能力正面硬刚 Gemini

2月12日,国产大模型集体爆发

离春节(2月17日)还有五天,国产AI圈先搞了场”AI春晚”。2月12日凌晨,智谱正式官宣开源 GLM-5;同日晚间,MiniMax 上线 M2.5。两款模型几乎同时亮相,直接把国产大模型竞争推入白热化。年还没过,仗先打起来了。

更有意思的是,GLM-5 其实早就”出道”了。此前在模型聚合平台 OpenRouter 上,一个叫”Pony Alpha”的匿名模型因性能强劲引发海外开发者热议。AI 社区通过基准分析和 GitHub PR 很快锁定了它的身份——就是智谱的 GLM-5。这波”先放成绩再揭面纱”的操作,确实比单纯发个新闻稿高明不少。

我拿到两款模型后做了一轮测试,重点放在前端网页生成、编程能力和 Agent 场景上。结论先放这里:在特定编程任务上,GLM-5 和 MiniMax M2.5 已经能打赢 Gemini 3 Pro,逼近 Claude Opus 4.5 的水平。 国产模型不再是”能用就行”的替代品,而是真正的竞争者。

下面拆开聊。

GLM-5:从 Vibe Coding 到系统工程

参数翻倍,架构革新

GLM-4.7 才发布一个月,智谱就掏出了 GLM-5,这迭代速度确实夸张。

核心参数变化:

指标 GLM-4.5 GLM-5
总参数 355B 744B
激活参数 32B 40B
预训练数据 23T tokens 28.5T tokens
上下文窗口 128K 202K
最大输出 131K tokens

架构上,GLM-5 采用 MoE(混合专家)设计,集成了 DeepSeek 的动态稀疏注意力(DSA)机制。这套组合的好处是:模型虽然总参数翻倍,但每次推理只激活 40B 参数,推理成本不会线性增长。

一个值得关注的细节:GLM-5 完全在华为昇腾芯片上训练,零依赖美国制造的硬件。同时已完成对寒武纪、摩尔线程、昆仑芯、燧原、沐曦、海光等国产算力平台的适配。这在地缘政治风险持续升温的当下,战略意义不言而喻。

编程能力:开源 SOTA

GLM-5 的定位很明确——它不是聊天模型,而是 Agentic Engineering 基座模型。

在主流编程基准上,GLM-5 的表现:

基准测试 GLM-5 Claude Opus 4.5 Gemini 3 Pro DeepSeek-V3.2
SWE-bench Verified 77.8 80.9 ~74 ~70
Terminal-Bench 2.0 56.2 59.3 54.2 39.3
MCP-Atlas 67.8 65.2 66.6
BrowseComp 75.9

SWE-bench Verified 是公认的编程基准测试。GLM-5 拿下 77.8,不仅甩开 Gemini 3 Pro,和 Claude Opus 4.5 的差距也只有 3 个百分点。对于一个开源模型来说,这个成绩相当惊人。

Terminal-Bench 2.0 测试的是模型在终端环境中的实际操作能力——管理文件、执行命令、失败后恢复。GLM-5 得分 56.2,超过 Gemini 3 Pro 的 54.2。MCP-Atlas 评估工具协议调用能力,GLM-5 的 67.8 甚至略高于 Claude Opus 4.5。

智谱给出的内部评估数据也值得参考:GLM-5 在前端、后端、长程任务等编程场景中,平均性能较上一代提升超 20%。

前端生成实测:鞭炮炸鱼缸

社区里流行的”鞭炮炸鱼缸”测试是个很好的直觉评判标准。这个测试要求模型生成一段模拟鞭炮在水缸中爆炸的代码,涉及水滴、碎屑、烟雾、气泡四种粒子效果在流体中的混合渲染。

GLM-5 的表现:折射效果还原度已经和 Claude Opus 4.6 几乎没区别。鞭炮连锁爆炸测试中,GLM-4.7 会忽略的参数,GLM-5 都能精准还原,玻璃箱效果和色调映射达到了”电影级画质”。

阮一峰在实测博客中也给了正面评价:生成的前端页面美观专业,信息组织井井有条,带动画效果,手机端适配也没问题,”简直可以直接上线”。

除了前端页面,GLM-5 在其他编程测试中也有明显进步:

  • Python 杯子倒水:新增了顶点碰撞检测,甚至给 2D 粒子加了模拟 3D 高光
  • 大象牙膏测试:实现了三层碰撞检测,引入动画阶段机制精准还原 prompt 要求
  • 陀飞轮机芯:渲染精度有明显提升

技术创新点

GLM-5 背后有几个核心技术值得关注:

Slime 训练框架:智谱构建的全新训练框架,支持更大规模模型架构和更复杂的强化学习任务。这个框架显著提升了强化学习后训练流程的效率。

异步智能体强化学习:这个算法让模型具备从长程交互中持续学习的能力。传统的 RLHF 主要针对单轮对话优化,而异步智能体 RL 可以在多步骤、多工具的复杂场景中进行优化。

DSA 稀疏注意力 + MoE:解决了”高性能与低成本不可兼得”的核心矛盾。202K 的上下文窗口配合稀疏注意力,部署成本比同级别稠密模型低得多。

定价与开源

GLM-5 遵循 MIT License 在 Hugging Face 和 ModelScope 上开源。API 定价:

  • 输入:$1.00 / 百万 tokens
  • 输出:$3.20 / 百万 tokens

这个价格在旗舰模型中属于中等偏低,考虑到接近 Opus 4.5 的性能,性价比相当可观。

MiniMax M2.5:为 Agent 时代而生

定位:原生 Agent 生产级模型

如果说 GLM-5 是”系统架构师”,那 MiniMax M2.5 就是”项目经理”。M2.5 的核心定位是”原生 Agent 生产级模型”,专为高频工具调用、多步骤任务编排设计。

上线不到一天,用户已在 MiniMax Agent 平台上构建了超过 1 万个专家智能体。这个数字说明市场对 Agent 原生模型的需求确实存在。

编程基准:SWE-bench 80.2

M2.5 的编程基准成绩比 GLM-5 还高:

基准测试 M2.5 Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
SWE-bench Verified 80.2 80.8 80.0 ~74
Multi-SWE-bench 51.3 50.3
BrowseComp 76.3
BFCL Multi-turn 76.8 68.0 61.0

SWE-bench Verified 80.2,和 Claude Opus 4.6 只差 0.6 个百分点。Multi-SWE-bench 51.3 甚至反超 Claude 4.6 的 50.3——这个测试更偏向多文件、跨模块的复杂软件任务,M2.5 在这里领先说明它在处理真实工程项目时的一致性更好。

BFCL Multi-turn 是衡量多轮工具调用能力的基准,M2.5 拿下 76.8,大幅领先 Claude 4.5 的 68.0 和 Gemini 3 Pro 的 61.0。对于 Agent 场景来说,这个指标可能比 SWE-bench 更有实际参考价值。

Forge:原生 Agent RL 框架

M2.5 最大的技术亮点是 Forge 框架。传统的 RLHF 训练流程中,模型和环境是耦合的——你用什么工具训练,推理时就只能用什么工具。Forge 做了一件事:把训练和推理完全解耦。

具体来说:

  • 训练-推理解耦:Forge 引入中间层,将底层训练引擎与 Agent 完全分离。训练时用的工具集和推理时可以不同
  • 真实环境训练:模型在 20 万个以上的真实环境中训练——代码仓库、浏览器、办公应用、API 端点
  • CISPO 算法:保障 MoE 模型在强化学习过程中的稳定性
  • 过程奖励机制:不只看最终结果,中间步骤也参与优化

训练效率提升约 40 倍。搜索轮次较 M2.1 减少约 20%,支持并行工具调用。完成 SWE-Bench Verified 评测的速度比 M2.1 快 37%。

“原生 Spec 能力”

MiniMax 提出了一个有意思的概念:M2.5 具备”原生 Spec 能力”,即编码前会主动拆解架构与功能规划。

这和很多开发者的直觉一致——真正好用的 AI 编程助手不是收到指令就开始写代码,而是先理解需求、规划架构、拆解任务,然后再动手实现。M2.5 把这种行为模式内化到了模型本身。

全栈覆盖与办公场景

M2.5 支持 10 余种编程语言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP 等),覆盖 Web、Android、iOS、Windows、Mac 全平台开发。

一个意料之外的能力扩展:M2.5 在办公场景上也做了优化,能生成和操作 Word、Excel、PowerPoint 文件。在 GDPval-MM 办公场景评测框架中,M2.5 取得了 59.0% 的平均胜率。

定价:碾压级性价比

M2.5 提供两个版本:

版本 速度 输入价格 输出价格
M2.5-Lightning 100 tokens/s $0.30/M $2.40/M
M2.5 50 tokens/s 略高 略高

Lightning 版本以 100 tokens/秒的速率连续运行一小时仅需 1 美元。做个对比:Claude Opus 4.6 完成同样任务的成本大约是 $3.00/task,M2.5 只要 $0.15/task——差了 20 倍。

VentureBeat 的标题直接写:”近 SOTA 水平,成本仅为 Claude Opus 4.6 的 1/20″。对于需要大量 Agent 循环的生产场景,这个成本差异足以改变技术选型决策。

模型权重已在 HuggingFace 完全开源。

前端生成能力实测对比

回到最初的话题:前端网页生成。

Linux DO 论坛上的测试使用了统一提示词——”写一个页面精美,风格自然的网页”。三个模型的表现:

GLM-5:生成的页面结构完整,动画效果自然,响应式布局处理得当。色彩搭配和排版都达到了可以直接上线的水平。在细节处理上,比如卡片阴影、过渡动画、微交互,GLM-5 展现出了对前端审美的深度理解。

MiniMax M2.5:页面生成同样精美,M2.5 的优势在于代码结构更清晰、组件化程度更高。对于一个需要后续维护的项目,M2.5 生成的代码可能更实用。

Gemini 3 Pro:功能完整但略显”工程化”,视觉效果和细节打磨不如前两者。在基础功能实现上没有问题,但在”精美”和”自然”两个维度上稍有差距。

测试者的结论:单个前端任务上,GLM-5 和 M2.5 都比 Gemini 3 Pro 更强。

这个结论需要加个限定条件:这是在特定提示词、特定任务类型上的表现。模型能力是多维度的,前端生成只是其中一个切面。但它确实说明了一个趋势:国产模型在代码生成的审美和工程质量上,已经追平甚至超越了部分国际旗舰模型。

全局对比:三者定位差异

把 GLM-5、MiniMax M2.5、Gemini 3 Pro 放在一起看,三者的定位其实有明显差异:

维度 GLM-5 MiniMax M2.5 Gemini 3 Pro
核心定位 Agentic Engineering 基座 原生 Agent 生产级模型 通用多模态旗舰
最强场景 系统工程、长程编程任务 高频工具调用、Agent 编排 多模态理解、通用任务
参数规模 744B (40B active) 未公布 (MoE) 未公布
上下文 202K 1M+
开源 MIT License HuggingFace 开源 闭源
价格(输出) $3.20/M $2.40/M (Lightning) $10.00/M
国产算力 全适配 部分适配 不适用

选择建议:

  • 需要系统级编程、代码重构、长程任务:GLM-5。它在 Terminal-Bench 和 MCP-Atlas 上的表现说明它更适合复杂的工程任务。
  • 需要高频 Agent 调用、多工具协调、成本敏感:MiniMax M2.5。BFCL Multi-turn 的成绩和极低的价格让它成为 Agent 场景的首选。
  • 需要超长上下文、多模态输入、通用能力:Gemini 3 Pro 仍然是强有力的选择,尤其是 1M+ 的上下文窗口在某些场景下不可替代。

国产大模型的拐点

GLM-5 和 MiniMax M2.5 的发布,标志着国产大模型从”跟跑”进入”并跑”阶段。

几个关键信号:

开源模型首次逼近闭源顶峰。GLM-5 在 SWE-bench Verified 上和 Claude Opus 4.5 只差 3 个百分点,M2.5 和 Claude Opus 4.6 只差 0.6 个百分点。一两年前,开源模型和闭源旗舰之间的差距是数量级的,现在已经缩小到统计误差的范围。

成本优势明显。M2.5 Lightning 的价格是 Claude Opus 4.6 的 1/20,GLM-5 的 API 价格也只有国际旗舰模型的几分之一。对于需要大规模部署的企业来说,这个成本差异意味着更多的可能性。

自主可控不再是空话。GLM-5 完全在国产算力上训练,MIT License 开源。在中美科技博弈持续升级的背景下,这种”全链路国产”的路线有不可忽视的战略价值。

Agent 成为主战场。两款模型都明确瞄准 Agent 场景——GLM-5 的 Slime 框架和异步智能体 RL,M2.5 的 Forge 框架和原生 Spec 能力。2026 年的大模型竞争已经不是”谁更聪明”的比拼,而是”谁更能干活”的较量。

当然也要清醒地看到:单个任务上的优势不等于全面超越。Claude 和 GPT 在通用推理、长文本理解、多模态处理等维度上仍有优势。但国产模型在编程和 Agent 这两个最具商业价值的方向上取得突破,已经足够让行业格局发生实质性变化。

大模型竞争的下半场,不看参数多少,看谁能在真实场景里解决真实问题。从这个角度看,GLM-5 和 MiniMax M2.5 交出的答卷,相当有说服力。

抢沙发

评论前必须登录!

立即登录   注册