开发者实测:国产大模型在Agent工具调用与复杂指令遵循上仍落后GPT-4

近日,有开发者在实测中发现,国产大模型(如GLM、Qwen)在Agent场景下的表现仍不及GPT-4。主要问题集中在两点:一是工具调用的格式解析不够严谨,常将复杂参数(如字符串数组)错误处理为JSON字符串;二是指令遵循能力较弱,难以灵活使用新增的优化参数。这表明,尽管国产模型在长文本等基础能力上进步神速,但在构建高级智能体所需的精确控制与逻辑推理层面,仍有待进一步打磨。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册