近日,有开发者在实测中发现,国产大模型(如GLM、Qwen)在Agent场景下的表现仍不及GPT-4。主要问题集中在两点:一是工具调用的格式解析不够严谨,常将复杂参数(如字符串数组)错误处理为JSON字符串;二是指令遵循能力较弱,难以灵活使用新增的优化参数。这表明,尽管国产模型在长文本等基础能力上进步神速,但在构建高级智能体所需的精确控制与逻辑推理层面,仍有待进一步打磨。
原文链接:Linux.do
近日,有开发者在实测中发现,国产大模型(如GLM、Qwen)在Agent场景下的表现仍不及GPT-4。主要问题集中在两点:一是工具调用的格式解析不够严谨,常将复杂参数(如字符串数组)错误处理为JSON字符串;二是指令遵循能力较弱,难以灵活使用新增的优化参数。这表明,尽管国产模型在长文本等基础能力上进步神速,但在构建高级智能体所需的精确控制与逻辑推理层面,仍有待进一步打磨。
原文链接:Linux.do
评论前必须登录!
立即登录 注册