智谱 GLM-5 免费试用：Pony Alpha 揭秘、744B 架构解析与 Kilo Code 实操指南-IT资源栈

从 Pony Alpha 到 GLM-5：一场精心策划的”匿名发布”

2026 年 2 月 6 日，一个叫 “Pony Alpha” 的模型悄悄出现在 OpenRouter 上。没有发布会，没有官方公告，只有一个匿名的模型 ID。

Reddit 上很快炸了锅。有人拿它跑编程任务，发现表现异常强悍。有人猜是 DeepSeek 的新模型，有人说是 Google 的秘密项目。硅谷的开发者们开始疯狂猜测——到底谁在幕后？

答案在 2 月 12 日揭晓：Pony Alpha 就是智谱的 GLM-5。

“Pony” 这个代号来自 2026 年的生肖——马年。智谱选择匿名投放，是为了在没有品牌光环的情况下收集真实的用户反馈。一个中国公司的模型，用英文代号在海外平台上偷偷跑了将近一周，靠实力登上了 OpenRouter 热度榜首。

这个操作本身就说明了一些东西。

GLM-5 的硬参数

先看数据：

指标	GLM-4.7	GLM-5
总参数量	355B	744B
激活参数	32B	40B
预训练数据	23T tokens	28.5T tokens
上下文窗口	128K	202K
架构	MoE	MoE + DSA
许可证	MIT	MIT

744B 总参数，但只激活 40B。MoE（混合专家）架构让模型在保持大规模知识容量的前提下，推理时只调用一小部分参数。换句话说，你用的时候不需要为那 700 多 B 的参数全部买单。

202K 的上下文窗口是个实用的升级。对编程场景来说，一个中型项目的核心代码量通常在几万到十几万 token 之间。202K 意味着模型能一次性读入更多的项目上下文，减少”忘掉前面内容”的问题。

三个架构层面的变化

1. Slime 训练框架

传统大模型的训练方式类似考试——给一道题，模型答一道题，然后打分。Slime 框架换了个思路：让模型去”做项目”。

在 Slime 环境里，模型需要完成完整的工程任务，过程中持续获得反馈。不是回答”这段代码有什么bug”这种单点问题，而是从零开始搭一个功能模块，中间遇到报错就自己修。

这种训练方式更贴近真实的开发场景。人类程序员也不是靠做选择题学会编程的。

2. 稀疏注意力（DeepSeek Sparse Attention）

GLM-5 是第一个集成 DeepSeek Sparse Attention（DSA）的智谱模型。

标准 Transformer 的注意力机制是全量的——每个 token 都要和所有其他 token 做计算。文本越长，计算量呈平方级增长。DSA 的做法是：只计算真正相关的 token 对，跳过那些信息冗余的部分。

实际效果：处理长代码时速度更快，显存占用更低，而输出质量没有明显下降。对开发者来说，好处是部署成本降了一截。

3. 异步智能体强化学习

传统强化学习是同步的——模型做一步，环境给一步反馈，然后做下一步。异步版本让模型可以同时处理多个任务流，从长程交互中学习。

这个改进的直接体现是 Agent 能力。GLM-5 在需要多步骤推理、工具调用、信息检索的任务上表现特别好。

Benchmark：数字说话

GLM-5 在几个关键评测上的成绩：

编程能力

SWE-bench-Verified：77.8（开源模型最高）
Terminal Bench 2.0：56.2（开源模型最高）

SWE-bench 测的是真实 GitHub issue 的修复能力——给模型一个 bug 报告和对应的代码仓库，让它自己定位问题、写补丁。77.8 的分数意味着模型能独立解决接近八成的真实软件缺陷。

Agent 能力

BrowseComp（联网检索与信息理解）：开源 SOTA
MCP-Atlas（大规模端到端工具调用）：开源 SOTA
τ2-Bench（复杂场景下自动代理规划与执行）：开源 SOTA

三项 Agent 评测全部拿到开源模型最优。Agent 能力的核心是”自主决策链”——模型不只是回答问题，而是能自己规划步骤、调用工具、处理中间结果、最终交付成果。

综合排名

在 Artificial Analysis 全球模型排行榜上，GLM-5 位列第四、开源第一。排在它前面的三个都是闭源商业模型。

和上一代对比，智谱的内部测试显示 GLM-5 在前端开发、后端开发、长程任务等场景下比 GLM-4.7 平均提升超过 20%。

一个重要的上下文

这些 benchmark 成绩需要客观看待。SWE-bench 和类似的评测，测的是特定维度的能力。实际使用中，模型的表现受 prompt 风格、任务类型、上下文长度等因素影响很大。

GLM-5 的定位是”接近 Claude Opus 4.5 的开源替代”。从数字上看确实在逼近，但”接近”和”等于”之间还有距离。个人建议：把 benchmark 当参考，具体好不好用还得自己跑一跑。

Kilo Code：你现在就能免费用

说完模型本身，说说怎么用。

Kilo Code 是一个开源的 AI 编程助手，VS Code 扩展已有超过 70 万次下载。它从 Cline 和 Roo Code 两个项目 fork 而来，目前在 AI 编程工具赛道上和 Cursor、Cline 直接竞争。

GLM-5 目前在 Kilo Code 上限时免费开放。

怎么开始

VS Code 扩展方式：

在 VS Code 扩展市场搜索 “Kilo Code” 并安装
打开 Kilo Code 面板
在模型选择器中找到 “Z.AI: GLM 5 (free)”
开始使用

CLI 方式：

# 安装 Kilo CLI
# 访问 kilo.ai/cli 获取安装方式

# 启动后选择 GLM 5 (free) 即可

不需要 API Key，不需要付费订阅，直接选模型就能用。

Kilo Code 的几个特点

多模式工作流：Kilo 内置了 Architect（架构师）、Code（编码）、Debug（调试）、Orchestrator（编排器）四种模式。Orchestrator 模式比较有意思——它会把大任务拆成小任务，分别分配给不同的模式代理执行。

并行 Agent：可以同时跑多个 AI 代理处理不同问题。做前端组件的同时让另一个 agent 写后端接口，互不干扰。

Memory Bank：项目级别的记忆功能。它会存储你的架构决策、代码风格偏好、项目上下文，下次打开项目时 agent 能直接”记住”之前的信息。

MCP Marketplace：内置 MCP 服务器市场，可以给 agent 扩展工具能力。比如连数据库、调 API、操作文件系统等。

和其他 AI 编程工具对比

2026 年的 AI 编程工具市场相当拥挤。简单对比一下几个主流选手：

工具	类型	模型支持	开源	特点
Kilo Code	VS Code 扩展	500+ 模型	Apache-2.0	多模式、并行 Agent
Cursor	独立 IDE	自定义 + 主流模型	否	Tab 补全、Composer
Cline	VS Code 扩展	主流模型	Apache-2.0	稳定、社区大
Claude Code	CLI	Claude 系列	否	终端原生、Agent 强

Kilo 的差异化在于它同时支持 500 多个模型，价格透明（按模型供应商原价计费，零加价），而且 GLM-5 目前免费。如果你想零成本体验一个接近前沿水准的编程模型，现在是个好时机。

实际体验：GLM-5 能做什么

基于社区反馈和已有测试，GLM-5 在以下场景表现较好：

代码生成与补全：给出清晰的需求描述，GLM-5 能生成结构合理的代码。对 Python、JavaScript、Go 等主流语言的支持比较全面。

Bug 修复：SWE-bench 77.8 的分数不是白拿的。给它一个 bug 描述和代码上下文，它能准确定位问题并给出修复方案。

代码审查：可以分析代码中的潜在问题，包括性能瓶颈、安全隐患、代码风味等。

长程任务：202K 上下文 + Agent 能力的组合，让它能处理需要多步骤完成的复杂任务。比如”读完这个仓库的代码，理解架构，然后加一个新功能”这种需要长链推理的请求。

多语言支持：中文和英文的理解生成能力都不错。对于中国开发者来说，用中文描述需求、生成英文代码注释这种混合场景比较顺畅。

需要注意的地方

免费试用有时间限制。Kilo 官方页面显示到 2 月 14 日截止，但实际截止时间可能调整。建议趁现在赶紧体验。

免费期结束后的定价还没公布。参考 Kilo 平台上 GLM-4.7 的价格是 $0.40/M input tokens，GLM-5 大概率会更贵。有社区反馈称 GLM-5 的成本大约是 GLM-4.7 的 2 倍，但如果一次 GLM-5 调用能完成两次 GLM-4.7 才能做完的事，综合成本其实差不多。

国产算力适配：为什么这件事重要

GLM-5 已经完成了和七家国产芯片平台的推理适配：

华为昇腾
摩尔线程
寒武纪
昆仑芯
沐曦
燧原
海光

对于国内企业来说，在国产算力上跑大模型是个硬需求。很多场景下 NVIDIA GPU 的采购受限，能在国产芯片上稳定运行的前沿模型选择并不多。GLM-5 在这个方向上走得比较靠前。

模型以 MIT 许可证开源，意味着商用无限制。你可以下载权重、做微调、部署私有化服务，不需要额外的商业授权。

开源与市场反应

GLM-5 在 Hugging Face 和 ModelScope 上都已开源。MIT License，无使用限制。

资本市场的反应很直接——智谱 AI 港股两日累计上涨约 60%。市场显然认为 GLM-5 的技术水准和开源策略具有商业价值。

从行业角度看，2026 年 2 月是国产大模型的集中爆发期。GLM-5 和 DeepSeek 新版、MiniMax M2.5 几乎同一天发布。国产模型在编程和 Agent 能力上正在快速追赶甚至超越海外闭源模型，开源社区的选择越来越多。

上手指南：5 分钟跑通

如果你只是想快速试试 GLM-5 的效果，最简单的路径：

第一步：安装 Kilo Code

打开 VS Code，搜索并安装 Kilo Code 扩展。

第二步：选择模型

安装完成后，打开 Kilo Code 侧边栏，在模型选择器中选 “Z.AI: GLM 5 (free)”。

第三步：开始对话

试几个任务感受一下：

// 任务1：代码生成
"用 Go 写一个并发安全的 LRU 缓存，支持过期淘汰"

// 任务2：Bug 修复
"这段代码在并发场景下会 panic，帮我分析原因并修复"
// [粘贴你的代码]

// 任务3：代码审查
"审查以下 Python 代码的安全性和性能问题"
// [粘贴你的代码]

第四步（可选）：试试 Architect 模式

切换到 Architect 模式，让 GLM-5 先分析你的项目结构，再给出实现方案。对于复杂任务，先规划再动手通常效果更好。

我的判断

GLM-5 是目前开源模型中编程能力最强的选项之一。744B 参数、MoE 架构、DSA 稀疏注意力的组合，让它在性能和成本之间找到了一个不错的平衡点。

Pony Alpha 的匿名发布策略很聪明。让产品在没有品牌预设的情况下接受检验，比发布会上放 PPT 有说服力。

Kilo Code 提供的免费试用窗口是个低成本的体验入口。不需要自己部署模型、不需要申请 API Key、不需要花钱——打开 VS Code 选个模型就能开始。这种体验门槛对于大多数开发者来说基本为零。

GLM-5 能不能在日常开发中替代 Claude 或 GPT？这个问题没有统一答案。不同的代码库、不同的编程语言、不同的任务复杂度，模型的表现差异很大。benchmark 分数接近不等于所有场景都接近。

建议：趁免费窗口期，拿你自己项目里的真实任务去测。自己跑出来的结果比任何 benchmark 都靠谱。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

事件分析

该方案触及了 AI 编程工程化的核心痛点：如何在多模型并存的现状下，以最低的上下文成本维持代码规范的一致性。这标志着 AI 辅助开发正从单一的“对话生成”向“工程化约束”演进。传统的 Prompt 工程往往难以覆盖复杂的架构规范，而直接将规则文档作为上下文注入，又极易消耗 Token。文章提出的基于文件系统的动态加载策略，实际上构建了一个将“工程标准”与“模型能力”解耦的控制层。这种分层架构不仅解决了 Claude 与 Gemini 等模型因训练数据差异导致的输出“精神分裂”问题，也为未来企业级 AI 开发流程提供了一种标准化的管理模式：Prompt 负责意图对齐，Rules 负责质量管控。

💡 核心观点：从 Prompt 工程进化到规则注入：用外部文件系统解耦模型能力与工程规范，是解决多模型代码碎片化并降低上下文成本的最优解。

事件分析

此次出现的大规模试用邀请，折射出大模型行业从技术竞赛转向商业化存量博弈的阶段性特征。随着各家模型在通用推理能力上的差距逐渐缩小，用户对于单一模型的依赖度正在降低，这使得“获客成本”和“用户留存”成为了比单纯的参数规模更关键的指标。OpenAI 此时释放试用名额，意在利用其在生态和产品体验（如 GPTs、Canvas）上的先发优势，通过短期的免费策略将竞品用户或观望用户锁定在其生态闭环中。此外，社区反馈的网络限制提示，也反映出 OpenAI 在激进推广的同时，依然面临着严峻的账号滥用风险和合规性挑战，这种“既要增长又要风控”的平衡将是未来 AI 产品的常态。

💡 核心观点：试用策略暴露了 OpenAI 在激烈竞品压力下的用户增长焦虑，大模型战场已从单纯的技术比拼转向商业化运营能力的全面较量。

事件分析

从技术视角来看，该研究标志着 AI 代码生成从单纯的“语法转换”向“行为等价验证”的关键跨越。传统的代码迁移工具往往难以处理复杂的业务逻辑和隐含的副作用，而引入 Agent 概念的“Locksmith Loop”通过动态对比双环境运行结果，构建了一个确定性验证闭环。这为解决日益严重的“遗留技术债务”问题提供了全新的自动化路径，特别是对于金融、政府等高度依赖 COBOL 核心系统的行业具有极高的实用价值。该方案证明了 AI 可以通过自我迭代学习来完善测试用例，降低了对人工编写测试和原始文档的依赖。未来，此类 Agent 化的工程工具极有可能成为重构基础设施的标准配置，大幅提升存量代码现代化的效率与安全性。

💡 核心观点：AI Agent 将代码迁移从黑盒转换变为可验证的白盒工程，通过保留 Bug 来验证逻辑一致性，为解决遗留系统现代化难题确立了新范式。

事件分析

该项目的核心价值在于验证了 AI 编程技术在处理传统工业协议和遗留系统方面的巨大潜力。通过将复杂的 VISA/SCPI 协议封装成 Python 接口，WaveBench 实际上充当了 AI 智能体与物理测量设备之间的“翻译层”，使得大模型能够理解并直接操作复杂的硬件环境。这标志着 AI 的应用已从单纯的代码生成扩展到了物理仪器的自动化编排，填补了软件开发与硬件测试之间的自动化鸿沟。开发者声称在竞赛中全流程使用 AI 生成代码并取得优异成绩，这一案例不仅展示了“Vibe Coding”在工程领域的实战能力，也预示着未来嵌入式开发和实验室工作流将面临深刻的效率变革。虽然目前仍处于实验阶段，但通过 MCP 协议连接物理设备的尝试，为构建虚实结合的 AI 工程生态系统提供了重要的技术参考。

💡 核心观点：WaveBench 证实了 AI Agent 不仅能编写代码，更能直接接管物理仪器，标志着硬件工程调试正式迈入智能化与自动化新阶段。

事件分析

此事件生动折射出当前 AI 智能体在复杂博弈环境中普遍存在的鲁棒性问题。所谓的“猛攻”策略失效，本质上是算法缺乏防御性策略的体现，即 AI 在执行高权重指令时，往往难以兼顾动态环境中的异常状态处理，导致系统崩溃。Arena Hero 实际上充当了一个低成本、高互动的 AI 测试沙盒，类似于强化学习中的对抗环境。随着开源社区对这类项目的关注，未来的 AI 开发趋势可能从单纯的代码生成能力，向包含策略规划、风险规避及长期逻辑闭环的高级智能体演进。这种人机混合的对抗模式，有望成为验证大模型逻辑推理能力的新基准。

💡 核心观点：AI智能体在动态博弈中的“死锁”暴露了逻辑鲁棒性短板，开源对抗沙盒正成为检验AI策略规划能力的实战演练场。

事件分析

此次量化对比揭示了 AI 基础设施市场定价权的转移，重点在于推理成本与交付能力的博弈。DeepSeek V4 Flash 通过极致的定价策略，直接挑战了 OpenAI 长期建立的“溢价模型”。从技术角度看，DeepSeek 能够在维持高性能解码（如 200k 上下文支持）的同时将 API 价格压低至竞品的 1/6，暗示其背后架构（如可能是 MoE 架构或推理优化）在算力利用率上具有显著优势。这种“价格屠夫”策略将迫使行业重新评估“模型价值”——即并非越贵的模型越好，而是单位智力成本最高的模型才最具商业落地潜力。这也预示着未来的大模型竞争将不再局限于基准测试分数，而是转向工程化实现的“性价比”竞争。

💡 核心观点：DeepSeek 以数倍的价格优势打破了 GPT 的溢价壁垒，证明大模型竞争已从单纯的能力比拼转向极致的性价比工程。

智谱 GLM-5 免费试用：Pony Alpha 揭秘、744B 架构解析与 Kilo Code 实操指南

从 Pony Alpha 到 GLM-5：一场精心策划的”匿名发布”

GLM-5 的硬参数