国产大模型的拐点：GLM-5 与 MiniMax M2.5 实测，前端生成能力正面硬刚 Gemini-IT资源栈

2月12日，国产大模型集体爆发

离春节（2月17日）还有五天，国产AI圈先搞了场”AI春晚”。2月12日凌晨，智谱正式官宣开源 GLM-5；同日晚间，MiniMax 上线 M2.5。两款模型几乎同时亮相，直接把国产大模型竞争推入白热化。年还没过，仗先打起来了。

更有意思的是，GLM-5 其实早就”出道”了。此前在模型聚合平台 OpenRouter 上，一个叫”Pony Alpha”的匿名模型因性能强劲引发海外开发者热议。AI 社区通过基准分析和 GitHub PR 很快锁定了它的身份——就是智谱的 GLM-5。这波”先放成绩再揭面纱”的操作，确实比单纯发个新闻稿高明不少。

我拿到两款模型后做了一轮测试，重点放在前端网页生成、编程能力和 Agent 场景上。结论先放这里：在特定编程任务上，GLM-5 和 MiniMax M2.5 已经能打赢 Gemini 3 Pro，逼近 Claude Opus 4.5 的水平。 国产模型不再是”能用就行”的替代品，而是真正的竞争者。

下面拆开聊。

GLM-5：从 Vibe Coding 到系统工程

参数翻倍，架构革新

GLM-4.7 才发布一个月，智谱就掏出了 GLM-5，这迭代速度确实夸张。

核心参数变化：

指标	GLM-4.5	GLM-5
总参数	355B	744B
激活参数	32B	40B
预训练数据	23T tokens	28.5T tokens
上下文窗口	128K	202K
最大输出	–	131K tokens

架构上，GLM-5 采用 MoE（混合专家）设计，集成了 DeepSeek 的动态稀疏注意力（DSA）机制。这套组合的好处是：模型虽然总参数翻倍，但每次推理只激活 40B 参数，推理成本不会线性增长。

一个值得关注的细节：GLM-5 完全在华为昇腾芯片上训练，零依赖美国制造的硬件。同时已完成对寒武纪、摩尔线程、昆仑芯、燧原、沐曦、海光等国产算力平台的适配。这在地缘政治风险持续升温的当下，战略意义不言而喻。

编程能力：开源 SOTA

GLM-5 的定位很明确——它不是聊天模型，而是 Agentic Engineering 基座模型。

在主流编程基准上，GLM-5 的表现：

基准测试	GLM-5	Claude Opus 4.5	Gemini 3 Pro	DeepSeek-V3.2
SWE-bench Verified	77.8	80.9	~74	~70
Terminal-Bench 2.0	56.2	59.3	54.2	39.3
MCP-Atlas	67.8	65.2	66.6	–
BrowseComp	75.9	–	–	–

SWE-bench Verified 是公认的编程基准测试。GLM-5 拿下 77.8，不仅甩开 Gemini 3 Pro，和 Claude Opus 4.5 的差距也只有 3 个百分点。对于一个开源模型来说，这个成绩相当惊人。

Terminal-Bench 2.0 测试的是模型在终端环境中的实际操作能力——管理文件、执行命令、失败后恢复。GLM-5 得分 56.2，超过 Gemini 3 Pro 的 54.2。MCP-Atlas 评估工具协议调用能力，GLM-5 的 67.8 甚至略高于 Claude Opus 4.5。

智谱给出的内部评估数据也值得参考：GLM-5 在前端、后端、长程任务等编程场景中，平均性能较上一代提升超 20%。

前端生成实测：鞭炮炸鱼缸

社区里流行的”鞭炮炸鱼缸”测试是个很好的直觉评判标准。这个测试要求模型生成一段模拟鞭炮在水缸中爆炸的代码，涉及水滴、碎屑、烟雾、气泡四种粒子效果在流体中的混合渲染。

GLM-5 的表现：折射效果还原度已经和 Claude Opus 4.6 几乎没区别。鞭炮连锁爆炸测试中，GLM-4.7 会忽略的参数，GLM-5 都能精准还原，玻璃箱效果和色调映射达到了”电影级画质”。

阮一峰在实测博客中也给了正面评价：生成的前端页面美观专业，信息组织井井有条，带动画效果，手机端适配也没问题，”简直可以直接上线”。

除了前端页面，GLM-5 在其他编程测试中也有明显进步：

Python 杯子倒水：新增了顶点碰撞检测，甚至给 2D 粒子加了模拟 3D 高光
大象牙膏测试：实现了三层碰撞检测，引入动画阶段机制精准还原 prompt 要求
陀飞轮机芯：渲染精度有明显提升

技术创新点

GLM-5 背后有几个核心技术值得关注：

Slime 训练框架：智谱构建的全新训练框架，支持更大规模模型架构和更复杂的强化学习任务。这个框架显著提升了强化学习后训练流程的效率。

异步智能体强化学习：这个算法让模型具备从长程交互中持续学习的能力。传统的 RLHF 主要针对单轮对话优化，而异步智能体 RL 可以在多步骤、多工具的复杂场景中进行优化。

DSA 稀疏注意力 + MoE：解决了”高性能与低成本不可兼得”的核心矛盾。202K 的上下文窗口配合稀疏注意力，部署成本比同级别稠密模型低得多。

定价与开源

GLM-5 遵循 MIT License 在 Hugging Face 和 ModelScope 上开源。API 定价：

输入：$1.00 / 百万 tokens
输出：$3.20 / 百万 tokens

这个价格在旗舰模型中属于中等偏低，考虑到接近 Opus 4.5 的性能，性价比相当可观。

MiniMax M2.5：为 Agent 时代而生

定位：原生 Agent 生产级模型

如果说 GLM-5 是”系统架构师”，那 MiniMax M2.5 就是”项目经理”。M2.5 的核心定位是”原生 Agent 生产级模型”，专为高频工具调用、多步骤任务编排设计。

上线不到一天，用户已在 MiniMax Agent 平台上构建了超过 1 万个专家智能体。这个数字说明市场对 Agent 原生模型的需求确实存在。

编程基准：SWE-bench 80.2

M2.5 的编程基准成绩比 GLM-5 还高：

基准测试	M2.5	Claude Opus 4.6	GPT-5.2	Gemini 3 Pro
SWE-bench Verified	80.2	80.8	80.0	~74
Multi-SWE-bench	51.3	50.3	–	–
BrowseComp	76.3	–	–	–
BFCL Multi-turn	76.8	68.0	–	61.0

SWE-bench Verified 80.2，和 Claude Opus 4.6 只差 0.6 个百分点。Multi-SWE-bench 51.3 甚至反超 Claude 4.6 的 50.3——这个测试更偏向多文件、跨模块的复杂软件任务，M2.5 在这里领先说明它在处理真实工程项目时的一致性更好。

BFCL Multi-turn 是衡量多轮工具调用能力的基准，M2.5 拿下 76.8，大幅领先 Claude 4.5 的 68.0 和 Gemini 3 Pro 的 61.0。对于 Agent 场景来说，这个指标可能比 SWE-bench 更有实际参考价值。

Forge：原生 Agent RL 框架

M2.5 最大的技术亮点是 Forge 框架。传统的 RLHF 训练流程中，模型和环境是耦合的——你用什么工具训练，推理时就只能用什么工具。Forge 做了一件事：把训练和推理完全解耦。

具体来说：

训练-推理解耦：Forge 引入中间层，将底层训练引擎与 Agent 完全分离。训练时用的工具集和推理时可以不同
真实环境训练：模型在 20 万个以上的真实环境中训练——代码仓库、浏览器、办公应用、API 端点
CISPO 算法：保障 MoE 模型在强化学习过程中的稳定性
过程奖励机制：不只看最终结果，中间步骤也参与优化

训练效率提升约 40 倍。搜索轮次较 M2.1 减少约 20%，支持并行工具调用。完成 SWE-Bench Verified 评测的速度比 M2.1 快 37%。

“原生 Spec 能力”

MiniMax 提出了一个有意思的概念：M2.5 具备”原生 Spec 能力”，即编码前会主动拆解架构与功能规划。

这和很多开发者的直觉一致——真正好用的 AI 编程助手不是收到指令就开始写代码，而是先理解需求、规划架构、拆解任务，然后再动手实现。M2.5 把这种行为模式内化到了模型本身。

全栈覆盖与办公场景

M2.5 支持 10 余种编程语言（Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP 等），覆盖 Web、Android、iOS、Windows、Mac 全平台开发。

一个意料之外的能力扩展：M2.5 在办公场景上也做了优化，能生成和操作 Word、Excel、PowerPoint 文件。在 GDPval-MM 办公场景评测框架中，M2.5 取得了 59.0% 的平均胜率。

定价：碾压级性价比

M2.5 提供两个版本：

版本	速度	输入价格	输出价格
M2.5-Lightning	100 tokens/s	$0.30/M	$2.40/M
M2.5	50 tokens/s	略高	略高

Lightning 版本以 100 tokens/秒的速率连续运行一小时仅需 1 美元。做个对比：Claude Opus 4.6 完成同样任务的成本大约是 $3.00/task，M2.5 只要 $0.15/task——差了 20 倍。

VentureBeat 的标题直接写：”近 SOTA 水平，成本仅为 Claude Opus 4.6 的 1/20″。对于需要大量 Agent 循环的生产场景，这个成本差异足以改变技术选型决策。

模型权重已在 HuggingFace 完全开源。

前端生成能力实测对比

回到最初的话题：前端网页生成。

Linux DO 论坛上的测试使用了统一提示词——”写一个页面精美，风格自然的网页”。三个模型的表现：

GLM-5：生成的页面结构完整，动画效果自然，响应式布局处理得当。色彩搭配和排版都达到了可以直接上线的水平。在细节处理上，比如卡片阴影、过渡动画、微交互，GLM-5 展现出了对前端审美的深度理解。

MiniMax M2.5：页面生成同样精美，M2.5 的优势在于代码结构更清晰、组件化程度更高。对于一个需要后续维护的项目，M2.5 生成的代码可能更实用。

Gemini 3 Pro：功能完整但略显”工程化”，视觉效果和细节打磨不如前两者。在基础功能实现上没有问题，但在”精美”和”自然”两个维度上稍有差距。

测试者的结论：单个前端任务上，GLM-5 和 M2.5 都比 Gemini 3 Pro 更强。

这个结论需要加个限定条件：这是在特定提示词、特定任务类型上的表现。模型能力是多维度的，前端生成只是其中一个切面。但它确实说明了一个趋势：国产模型在代码生成的审美和工程质量上，已经追平甚至超越了部分国际旗舰模型。

全局对比：三者定位差异

把 GLM-5、MiniMax M2.5、Gemini 3 Pro 放在一起看，三者的定位其实有明显差异：

维度	GLM-5	MiniMax M2.5	Gemini 3 Pro
核心定位	Agentic Engineering 基座	原生 Agent 生产级模型	通用多模态旗舰
最强场景	系统工程、长程编程任务	高频工具调用、Agent 编排	多模态理解、通用任务
参数规模	744B (40B active)	未公布 (MoE)	未公布
上下文	202K	–	1M+
开源	MIT License	HuggingFace 开源	闭源
价格（输出）	$3.20/M	$2.40/M (Lightning)	$10.00/M
国产算力	全适配	部分适配	不适用

选择建议：

需要系统级编程、代码重构、长程任务：GLM-5。它在 Terminal-Bench 和 MCP-Atlas 上的表现说明它更适合复杂的工程任务。
需要高频 Agent 调用、多工具协调、成本敏感：MiniMax M2.5。BFCL Multi-turn 的成绩和极低的价格让它成为 Agent 场景的首选。
需要超长上下文、多模态输入、通用能力：Gemini 3 Pro 仍然是强有力的选择，尤其是 1M+ 的上下文窗口在某些场景下不可替代。

国产大模型的拐点

GLM-5 和 MiniMax M2.5 的发布，标志着国产大模型从”跟跑”进入”并跑”阶段。

几个关键信号：

开源模型首次逼近闭源顶峰。GLM-5 在 SWE-bench Verified 上和 Claude Opus 4.5 只差 3 个百分点，M2.5 和 Claude Opus 4.6 只差 0.6 个百分点。一两年前，开源模型和闭源旗舰之间的差距是数量级的，现在已经缩小到统计误差的范围。

成本优势明显。M2.5 Lightning 的价格是 Claude Opus 4.6 的 1/20，GLM-5 的 API 价格也只有国际旗舰模型的几分之一。对于需要大规模部署的企业来说，这个成本差异意味着更多的可能性。

自主可控不再是空话。GLM-5 完全在国产算力上训练，MIT License 开源。在中美科技博弈持续升级的背景下，这种”全链路国产”的路线有不可忽视的战略价值。

Agent 成为主战场。两款模型都明确瞄准 Agent 场景——GLM-5 的 Slime 框架和异步智能体 RL，M2.5 的 Forge 框架和原生 Spec 能力。2026 年的大模型竞争已经不是”谁更聪明”的比拼，而是”谁更能干活”的较量。

当然也要清醒地看到：单个任务上的优势不等于全面超越。Claude 和 GPT 在通用推理、长文本理解、多模态处理等维度上仍有优势。但国产模型在编程和 Agent 这两个最具商业价值的方向上取得突破，已经足够让行业格局发生实质性变化。

大模型竞争的下半场，不看参数多少，看谁能在真实场景里解决真实问题。从这个角度看，GLM-5 和 MiniMax M2.5 交出的答卷，相当有说服力。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

事件分析

该项目实质上是对多智能体系统（MAS）在垂直领域应用的一次技术实验，体现了AI从单体推理向群体审议演进的技术趋势。通过引入“辩论”和“反驳”机制，系统试图利用模型之间的对抗性来修正单一模型的幻觉或逻辑漏洞，这与思维链或树搜索在目标上是一致的。虽然应用场景为小众的命理领域，但其架构具有通用性，对于需要高准确率的复杂任务（如代码审查、法律分析或财务诊断）具有参考价值。然而，这种模式也面临着推理成本指数级增加与延迟显著的挑战，如何在Token消耗与最终质量之间找到平衡点，是该技术路线能否从Demo走向生产环境的关键。

💡 核心观点：多智能体辩论机制通过引入内部对抗能有效修正推理偏差，但这标志着AI应用正从追求“单体智商”转向探索“群体智能”的协作范式。

事件分析

此类高质量实战教程的公开传播，反映了AIGC（生成式人工智能）在视频领域正加速从“概念探索”走向“落地应用”。课程大纲中重点强调的“提示词工程”与“首尾帧控制”，直击当前AI视频生成模型的技术痛点——即如何提升生成的可控性与时空连贯性。

从技术维度看，课程内容展示了传统影视制作术语（如运镜、分镜、剪辑节奏）与AI生成技术的深度融合。这表明，未来的视频创作工作流将是“传统影视理论”与“AI生成算法”的混合体。掌握控制参数和提示逻辑，正逐渐取代单纯的手工剪辑，成为内容创作者的核心竞争力。这种教程的普及，有望加速AI视频生成工具在专业制作流程中的标准化应用。

💡 核心观点：掌握提示词与参数控制成为核心竞争力，标志着AI视频生成正从“随机抽卡”迈向“可控工业化生产”。

事件分析

此次评测揭示了当前AI编程模型发展的两个关键趋势：一是长思维链与现有工具链的适配矛盾，DeepSeek Flash倾向于消耗大量Token进行任务规划，这体现了模型在复杂逻辑处理上的深度思考模式，但也对现有短输出默认配置提出了挑战；二是训练语料分布对模型能力的决定性影响，在热门前端领域的优异表现与在Rust等系统级语言中的“断崖”差距，直观反映了开源模型在长尾技术语料上的匮乏。该评测还暗示了未来AI Agent竞争将不再局限于模型参数本身，而是转向“模型+专用工具链”的综合生态建设，DeepSeek即将发布的原生Harnes ses试图解决工具调用效率问题，这表明头部厂商正试图通过软硬件协同优化来释放模型的极限性能。

💡 核心观点：仅靠参数堆砌已非万能，DeepSeek Flash的实测证明：模型的长思考推理能力必须与适配的工具链及高质量长尾语料深度耦合。

事件分析

此次测试重点验证了AI Agent在复杂长文本生成任务中的工作流能力。通过将小说创作拆解为大纲、人物设定、章节压缩等模块化步骤，Agent展示了其在执行多步骤自动化任务时的潜力，这反映了当前AI应用正从单一指令向具备自我规划能力的Agent架构演进。然而，实验中“剧情逻辑容易崩”的现象，深刻揭示了现有大语言模型在处理长程依赖关系和复杂因果推理时的固有缺陷。虽然模型能够通过概率预测生成流畅的段落，但在需要严密逻辑支撑的小说创作中，缺乏外部知识库或人工干预的纯生成模式仍难以保证内容的内在一致性。这表明，在内容创作领域，AI Agent目前更倾向于作为辅助工具提升效率，而非完全替代人工进行高质量的逻辑构建。

💡 核心观点：Agent虽能通过模块化工作流实现长文自动生成，但长程逻辑的失控暴露了大模型在复杂叙事推理上的技术边界。

事件分析

这一波价格战的本质是 AI 推理技术边际成本下降的体现。OpenAI 提及的 GPU 内核优化和推测解码技术，意味着行业正在从单纯的堆算力转向追求算法和架构的极限效率。DeepSeek V4 Flash 以 284B 参数挑战 700B+ 级别的模型，证明了“小参数高性能”的路线在特定场景下的可行性，这对盲目追求参数规模的行业风气是一次纠偏。厂商从按次付费转向按 Token 计费，反映了 AI 应用场景正从简单聊天转向复杂的 Agent 和代码生成，单一请求的资源消耗差异巨大，精细化的计费模式是商业可持续的必经之路。市场格局正在重塑，多模态能力将成为厂商抵御纯文本价格战的重要护城河。

💡 核心观点：DeepSeek 以极致性价比打破行业溢价泡沫，迫使大模型竞争从“参数军备竞赛”转向“推理效率与成本控制”的硬实力比拼。

事件分析

该技术方案的核心在于对抗大模型 API 接口层面的风控策略。随着各大 AI 厂商加强对非官方调用的限制，通过 IP 特征或请求频率触发的“降智”机制已成为阻碍开发者独立应用的主要壁垒。此开源项目通过修补出口流量，证明了非官方生态与官方风控之间的技术博弈正在升级。对于开发者而言，此类工具不仅是对访问链路的修补，更是维持 AI Agent 或自动化应用稳定性的必要手段。预计未来针对大模型接口的各种“过墙”与“反过墙”技术将持续迭代，推动开源社区在 API 代理层面积累更深厚的技术沉淀，但也面临着接口规则变更导致随时失效的不确定性风险。

💡 核心观点：开源插件通过修补出口链路成功对抗 AI 模型的“降智”风控，揭示出非官方 API 生态具有极强的技术韧性与需求刚性。

国产大模型的拐点：GLM-5 与 MiniMax M2.5 实测，前端生成能力正面硬刚 Gemini

2月12日，国产大模型集体爆发

GLM-5：从 Vibe Coding 到系统工程

参数翻倍，架构革新

编程能力：开源 SOTA

前端生成实测：鞭炮炸鱼缸

技术创新点

定价与开源

MiniMax M2.5：为 Agent 时代而生

定位：原生 Agent 生产级模型

编程基准：SWE-bench 80.2

Forge：原生 Agent RL 框架

“原生 Spec 能力”

全栈覆盖与办公场景

定价：碾压级性价比

前端生成能力实测对比

全局对比：三者定位差异

国产大模型的拐点

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

GitHub开源新尝试：让四个AI智能体互博辩论，以多智能体编排提升复杂推理质量

事件分析

影视飓风AI视频实战课资源流出：深度解析提示词与首尾帧进阶玩法

事件分析

DeepSeek Flash实测：285B参数硬刚三倍体量GLM，前端表现惊艳

事件分析

实测AI Agent全自动创作长篇小说：从大纲生成到剧情逻辑的局限

事件分析

DeepSeek V4 Flash 发布搅动 AI 市场：极低定价逼得 OpenAI 与智谱纷纷应战

事件分析

开源社区拯救 Grok 免费版：CPA 插件完美规避“降智”限制

事件分析

最新文章

热门专题

热门标签

网站统计

2月12日，国产大模型集体爆发

GLM-5：从 Vibe Coding 到系统工程

参数翻倍，架构革新

编程能力：开源 SOTA

前端生成实测：鞭炮炸鱼缸

技术创新点

定价与开源

MiniMax M2.5：为 Agent 时代而生

定位：原生 Agent 生产级模型

编程基准：SWE-bench 80.2

Forge：原生 Agent RL 框架

“原生 Spec 能力”

全栈覆盖与办公场景

定价：碾压级性价比

前端生成能力实测对比

全局对比：三者定位差异

国产大模型的拐点

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

GitHub开源新尝试：让四个AI智能体互博辩论，以多智能体编排提升复杂推理质量

事件分析

影视飓风AI视频实战课资源流出：深度解析提示词与首尾帧进阶玩法

事件分析

DeepSeek Flash实测：285B参数硬刚三倍体量GLM，前端表现惊艳

事件分析

实测AI Agent全自动创作长篇小说：从大纲生成到剧情逻辑的局限

事件分析

DeepSeek V4 Flash 发布搅动 AI 市场：极低定价逼得 OpenAI 与智谱纷纷应战

事件分析

开源社区拯救 Grok 免费版：CPA 插件完美规避“降智”限制

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入