从 Pony Alpha 到 GLM-5:一场精心策划的”匿名发布”
2026 年 2 月 6 日,一个叫 “Pony Alpha” 的模型悄悄出现在 OpenRouter 上。没有发布会,没有官方公告,只有一个匿名的模型 ID。
Reddit 上很快炸了锅。有人拿它跑编程任务,发现表现异常强悍。有人猜是 DeepSeek 的新模型,有人说是 Google 的秘密项目。硅谷的开发者们开始疯狂猜测——到底谁在幕后?
答案在 2 月 12 日揭晓:Pony Alpha 就是智谱的 GLM-5。
“Pony” 这个代号来自 2026 年的生肖——马年。智谱选择匿名投放,是为了在没有品牌光环的情况下收集真实的用户反馈。一个中国公司的模型,用英文代号在海外平台上偷偷跑了将近一周,靠实力登上了 OpenRouter 热度榜首。
这个操作本身就说明了一些东西。
GLM-5 的硬参数
先看数据:
| 指标 | GLM-4.7 | GLM-5 |
|---|---|---|
| 总参数量 | 355B | 744B |
| 激活参数 | 32B | 40B |
| 预训练数据 | 23T tokens | 28.5T tokens |
| 上下文窗口 | 128K | 202K |
| 架构 | MoE | MoE + DSA |
| 许可证 | MIT | MIT |
744B 总参数,但只激活 40B。MoE(混合专家)架构让模型在保持大规模知识容量的前提下,推理时只调用一小部分参数。换句话说,你用的时候不需要为那 700 多 B 的参数全部买单。
202K 的上下文窗口是个实用的升级。对编程场景来说,一个中型项目的核心代码量通常在几万到十几万 token 之间。202K 意味着模型能一次性读入更多的项目上下文,减少”忘掉前面内容”的问题。
三个架构层面的变化
1. Slime 训练框架
传统大模型的训练方式类似考试——给一道题,模型答一道题,然后打分。Slime 框架换了个思路:让模型去”做项目”。
在 Slime 环境里,模型需要完成完整的工程任务,过程中持续获得反馈。不是回答”这段代码有什么bug”这种单点问题,而是从零开始搭一个功能模块,中间遇到报错就自己修。
这种训练方式更贴近真实的开发场景。人类程序员也不是靠做选择题学会编程的。
2. 稀疏注意力(DeepSeek Sparse Attention)
GLM-5 是第一个集成 DeepSeek Sparse Attention(DSA)的智谱模型。
标准 Transformer 的注意力机制是全量的——每个 token 都要和所有其他 token 做计算。文本越长,计算量呈平方级增长。DSA 的做法是:只计算真正相关的 token 对,跳过那些信息冗余的部分。
实际效果:处理长代码时速度更快,显存占用更低,而输出质量没有明显下降。对开发者来说,好处是部署成本降了一截。
3. 异步智能体强化学习
传统强化学习是同步的——模型做一步,环境给一步反馈,然后做下一步。异步版本让模型可以同时处理多个任务流,从长程交互中学习。
这个改进的直接体现是 Agent 能力。GLM-5 在需要多步骤推理、工具调用、信息检索的任务上表现特别好。
Benchmark:数字说话
GLM-5 在几个关键评测上的成绩:
编程能力
- SWE-bench-Verified:77.8(开源模型最高)
- Terminal Bench 2.0:56.2(开源模型最高)
SWE-bench 测的是真实 GitHub issue 的修复能力——给模型一个 bug 报告和对应的代码仓库,让它自己定位问题、写补丁。77.8 的分数意味着模型能独立解决接近八成的真实软件缺陷。
Agent 能力
- BrowseComp(联网检索与信息理解):开源 SOTA
- MCP-Atlas(大规模端到端工具调用):开源 SOTA
- τ2-Bench(复杂场景下自动代理规划与执行):开源 SOTA
三项 Agent 评测全部拿到开源模型最优。Agent 能力的核心是”自主决策链”——模型不只是回答问题,而是能自己规划步骤、调用工具、处理中间结果、最终交付成果。
综合排名
在 Artificial Analysis 全球模型排行榜上,GLM-5 位列第四、开源第一。排在它前面的三个都是闭源商业模型。
和上一代对比,智谱的内部测试显示 GLM-5 在前端开发、后端开发、长程任务等场景下比 GLM-4.7 平均提升超过 20%。
一个重要的上下文
这些 benchmark 成绩需要客观看待。SWE-bench 和类似的评测,测的是特定维度的能力。实际使用中,模型的表现受 prompt 风格、任务类型、上下文长度等因素影响很大。
GLM-5 的定位是”接近 Claude Opus 4.5 的开源替代”。从数字上看确实在逼近,但”接近”和”等于”之间还有距离。个人建议:把 benchmark 当参考,具体好不好用还得自己跑一跑。
Kilo Code:你现在就能免费用
说完模型本身,说说怎么用。
Kilo Code 是一个开源的 AI 编程助手,VS Code 扩展已有超过 70 万次下载。它从 Cline 和 Roo Code 两个项目 fork 而来,目前在 AI 编程工具赛道上和 Cursor、Cline 直接竞争。
GLM-5 目前在 Kilo Code 上限时免费开放。
怎么开始
VS Code 扩展方式:
- 在 VS Code 扩展市场搜索 “Kilo Code” 并安装
- 打开 Kilo Code 面板
- 在模型选择器中找到 “Z.AI: GLM 5 (free)”
- 开始使用
CLI 方式:
# 安装 Kilo CLI
# 访问 kilo.ai/cli 获取安装方式
# 启动后选择 GLM 5 (free) 即可
不需要 API Key,不需要付费订阅,直接选模型就能用。
Kilo Code 的几个特点
多模式工作流:Kilo 内置了 Architect(架构师)、Code(编码)、Debug(调试)、Orchestrator(编排器)四种模式。Orchestrator 模式比较有意思——它会把大任务拆成小任务,分别分配给不同的模式代理执行。
并行 Agent:可以同时跑多个 AI 代理处理不同问题。做前端组件的同时让另一个 agent 写后端接口,互不干扰。
Memory Bank:项目级别的记忆功能。它会存储你的架构决策、代码风格偏好、项目上下文,下次打开项目时 agent 能直接”记住”之前的信息。
MCP Marketplace:内置 MCP 服务器市场,可以给 agent 扩展工具能力。比如连数据库、调 API、操作文件系统等。
和其他 AI 编程工具对比
2026 年的 AI 编程工具市场相当拥挤。简单对比一下几个主流选手:
| 工具 | 类型 | 模型支持 | 开源 | 特点 |
|---|---|---|---|---|
| Kilo Code | VS Code 扩展 | 500+ 模型 | Apache-2.0 | 多模式、并行 Agent |
| Cursor | 独立 IDE | 自定义 + 主流模型 | 否 | Tab 补全、Composer |
| Cline | VS Code 扩展 | 主流模型 | Apache-2.0 | 稳定、社区大 |
| Claude Code | CLI | Claude 系列 | 否 | 终端原生、Agent 强 |
Kilo 的差异化在于它同时支持 500 多个模型,价格透明(按模型供应商原价计费,零加价),而且 GLM-5 目前免费。如果你想零成本体验一个接近前沿水准的编程模型,现在是个好时机。
实际体验:GLM-5 能做什么
基于社区反馈和已有测试,GLM-5 在以下场景表现较好:
代码生成与补全:给出清晰的需求描述,GLM-5 能生成结构合理的代码。对 Python、JavaScript、Go 等主流语言的支持比较全面。
Bug 修复:SWE-bench 77.8 的分数不是白拿的。给它一个 bug 描述和代码上下文,它能准确定位问题并给出修复方案。
代码审查:可以分析代码中的潜在问题,包括性能瓶颈、安全隐患、代码风味等。
长程任务:202K 上下文 + Agent 能力的组合,让它能处理需要多步骤完成的复杂任务。比如”读完这个仓库的代码,理解架构,然后加一个新功能”这种需要长链推理的请求。
多语言支持:中文和英文的理解生成能力都不错。对于中国开发者来说,用中文描述需求、生成英文代码注释这种混合场景比较顺畅。
需要注意的地方
免费试用有时间限制。Kilo 官方页面显示到 2 月 14 日截止,但实际截止时间可能调整。建议趁现在赶紧体验。
免费期结束后的定价还没公布。参考 Kilo 平台上 GLM-4.7 的价格是 $0.40/M input tokens,GLM-5 大概率会更贵。有社区反馈称 GLM-5 的成本大约是 GLM-4.7 的 2 倍,但如果一次 GLM-5 调用能完成两次 GLM-4.7 才能做完的事,综合成本其实差不多。
国产算力适配:为什么这件事重要
GLM-5 已经完成了和七家国产芯片平台的推理适配:
- 华为昇腾
- 摩尔线程
- 寒武纪
- 昆仑芯
- 沐曦
- 燧原
- 海光
对于国内企业来说,在国产算力上跑大模型是个硬需求。很多场景下 NVIDIA GPU 的采购受限,能在国产芯片上稳定运行的前沿模型选择并不多。GLM-5 在这个方向上走得比较靠前。
模型以 MIT 许可证开源,意味着商用无限制。你可以下载权重、做微调、部署私有化服务,不需要额外的商业授权。
开源与市场反应
GLM-5 在 Hugging Face 和 ModelScope 上都已开源。MIT License,无使用限制。
资本市场的反应很直接——智谱 AI 港股两日累计上涨约 60%。市场显然认为 GLM-5 的技术水准和开源策略具有商业价值。
从行业角度看,2026 年 2 月是国产大模型的集中爆发期。GLM-5 和 DeepSeek 新版、MiniMax M2.5 几乎同一天发布。国产模型在编程和 Agent 能力上正在快速追赶甚至超越海外闭源模型,开源社区的选择越来越多。
上手指南:5 分钟跑通
如果你只是想快速试试 GLM-5 的效果,最简单的路径:
第一步:安装 Kilo Code
打开 VS Code,搜索并安装 Kilo Code 扩展。
第二步:选择模型
安装完成后,打开 Kilo Code 侧边栏,在模型选择器中选 “Z.AI: GLM 5 (free)”。
第三步:开始对话
试几个任务感受一下:
// 任务1:代码生成
"用 Go 写一个并发安全的 LRU 缓存,支持过期淘汰"
// 任务2:Bug 修复
"这段代码在并发场景下会 panic,帮我分析原因并修复"
// [粘贴你的代码]
// 任务3:代码审查
"审查以下 Python 代码的安全性和性能问题"
// [粘贴你的代码]
第四步(可选):试试 Architect 模式
切换到 Architect 模式,让 GLM-5 先分析你的项目结构,再给出实现方案。对于复杂任务,先规划再动手通常效果更好。
我的判断
GLM-5 是目前开源模型中编程能力最强的选项之一。744B 参数、MoE 架构、DSA 稀疏注意力的组合,让它在性能和成本之间找到了一个不错的平衡点。
Pony Alpha 的匿名发布策略很聪明。让产品在没有品牌预设的情况下接受检验,比发布会上放 PPT 有说服力。
Kilo Code 提供的免费试用窗口是个低成本的体验入口。不需要自己部署模型、不需要申请 API Key、不需要花钱——打开 VS Code 选个模型就能开始。这种体验门槛对于大多数开发者来说基本为零。
GLM-5 能不能在日常开发中替代 Claude 或 GPT?这个问题没有统一答案。不同的代码库、不同的编程语言、不同的任务复杂度,模型的表现差异很大。benchmark 分数接近不等于所有场景都接近。
建议:趁免费窗口期,拿你自己项目里的真实任务去测。自己跑出来的结果比任何 benchmark 都靠谱。

IT资源栈
评论前必须登录!
立即登录 注册