近日,有开发者在使用智谱GLM模型(用户指代为GLM 5.2)测试Agent功能时发现,该模型在工具调用与技能编排方面存在显著局限。在部署名为“qiushi”的第三方技能时,GLM模型无法像GPT或Claude那样根据对话上下文自动触发“arming-thought”等技能入口,导致后续的子技能调用链路中断。相比之下,GPT与Claude能够顺畅地自主启动相关技能并根据实际情况调用子功能。开发者指出,即使在提示词中显式指定使用特定技能,或在毫无逻辑阻碍的场景下,GLM依然拒绝或忽略对子技能的调用请求。这一现象暴露了部分国产大模型在Function Calling(函数调用)或Tool Use(工具使用)层面的严谨性与推理深度不足,难以胜任需要多步推理与自动工具编排的高级智能体任务。
事件分析
此事件触及了大模型从“对话”向“行动”跨越的关键技术瓶颈。GLM表现出的被动性,反映出其模型在ReAct(推理+行动)链式调用的微调上可能不及GPT-4与Claude 3.5成熟。技术层面上,主动调用技能要求模型具备极高的意图识别能力与上下文理解力,且需打破纯粹的文本生成逻辑,转向决策逻辑。产业角度看,具备高自主性的Agent是AI下一阶段应用落地的核心,若国产模型无法在工具调用的精准度和主动性上追平头部竞品,将在企业级应用开发与复杂工作流自动化市场中面临竞争劣势。解决该问题不仅需要提升模型基础智力,更需针对开发者生态优化API交互层与系统提示词的权重。
💡 核心观点:大模型的竞争维度已从单纯的语言生成转向Agent化的工具调用,自主性与精准度是决定能否落地应用的关键。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册