Cerebras 重启免费超快推理服务：gpt-oss-120b 与 zai-glm-4.7 重新上线-IT资源栈

AI 推理算力领域的创新企业 Cerebras 近期宣布，此前短暂下架的 gpt-oss-120b 和 zai-glm-4.7 模型 API 服务已重新回归，并对开发者重新开放免费访问权限。这两个模型部署在 Cerebras 独特的晶圆级引擎（WSE）架构上，因其卓越的推理生成速度而受到技术社区的广泛关注。虽然此次恢复的服务伴随着每分钟 5 次请求（5 RPM）的频率限制，要求开发者必须具备多轮询或并发处理的能力，但考虑到其极致的响应延迟，该服务依然是构建低延迟 AI 应用的理想测试床。社区反馈显示，Cerebras 平台在处理长文本翻译及代码生成任务时，相比传统 GPU 集群拥有显著的响应速度优势，常被视为追求效率的开发者的“白月光”。目前尚不清楚该免费窗口期将持续多久，业界普遍建议开发者抓紧时间进行适配与测试。

事件分析

Cerebras 此番动作不仅是服务的简单恢复，更是算力厂商向应用端展示硬实力的营销策略。不同于通过模型参数量比拼性能的传统路径，Cerebras 依托其专有的 WSE 芯片架构，直接在推理速度这一核心指标上构建了竞争壁垒。通过开放高频调用的旗舰模型接口，厂商能够获取真实场景下的负载数据，并培养开发者生态。这种“限时免费、限制频率”的模式，既控制了高昂的硬件运营成本，又维持了技术热度的传播。从产业趋势来看，AI 竞争已从单一的大模型训练延伸至推理效率的角逐，超低延迟的推理能力将成为实时交互类 AI 应用落地的关键决定因素。

💡 核心观点：算力厂商借免费高性能接口抢占开发者心智，极致推理速度正成为 AI 应用落地的新赛点。

原文链接：Linux.do

Cerebras 重启免费超快推理服务：gpt-oss-120b 与 zai-glm-4.7 重新上线

事件分析

相关阅读

抢沙发

评论前必须登录！