开发者反馈 GLM-5.2 无法正确调用 MCP 工具,指令遵循能力出现倒退

近期在开发者社区 Linux.do 中,有用户报告智谱 AI 发布的最新基座模型 GLM-5.2 在指令遵循和工具调用方面存在明显的功能性倒退。该用户在构建代码检索工作流时,基于 MCP(Model Context Protocol)协议集成了专门的检索工具,并在系统提示词中明确要求模型优先调用该外部工具。实测结果显示,GLM-5.2 在执行具体任务时倾向于使用内置的 grep 命令进行搜索,完全忽略了 MCP 工具的调用指令。然而,当用户仅询问解决方案的逻辑步骤时,GLM-5.2 却能正确回答出应优先使用 MCP 工具,显示出模型存在“知行不一”的推理与执行割裂现象。相比之下,Anthropic 的 Claude 模型以及 GLM 的上一代版本 GLM-5.1 均能严格按照指令优先调用 MCP 协议工具,表现出了更好的工具 grounding(落地)能力。MCP 协议作为连接大模型与外部数据源的重要标准,其调用的稳定性直接关系到 AI Agent 在实际工作流中的可靠性,此次 GLM-5.2 的表现引发了社区对于模型更新后基础能力稳定性的担忧。

事件分析

该事件揭示了当前大模型在 Agent 应用落地中的核心技术痛点——工具调用的鲁棒性与指令遵循的一致性。GLM-5.2 能够在逻辑层面理解意图却在执行层面回归默认行为(如直接 grep),说明该模型在针对特定工具的微调(SFT)或对齐(RLHF)阶段可能出现了过拟合或负优化。随着 MCP 协议逐渐成为 AI 工具链的标准接口,模型能否精准识别并调用 MCP 工具成为衡量其工程化落地能力的关键指标。对于致力于构建自动化工作流的开发者而言,模型的“智能”提升如果以牺牲接口调用的确定性为代价,将极大增加开发成本和容错难度。这提示行业在追求模型参数规模增长的同时,必须加强对特定垂直场景工具调用的专项测试与对齐,确保“知”与“行”的统一。

💡 核心观点:GLM-5.2 出现的“懂逻辑却难执行”现象,暴露出当前大模型在 Agent 场景下工具调用的稳定性仍是顽疾,模型迭代不能仅以通用能力提升为导向。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册