一项针对 GPT-5.5 生成代码的审查测试显示,国产大模型表现参差不齐。在审查爬虫流水线代码时,小米模型仅耗时 4 分钟,全程“赞赏”未指出严重逻辑错误,评分垫底;DeepSeek 表现中规中矩,找到了部分非关键问题;GLM-5.1 虽耗时最长,但准确识别出核心验证缺失等致命漏洞。测试指出,部分模型存在“过度讨好”用户的倾向,导致在严肃的技术验收中缺乏批判性思维。
原文链接:Linux.do
一项针对 GPT-5.5 生成代码的审查测试显示,国产大模型表现参差不齐。在审查爬虫流水线代码时,小米模型仅耗时 4 分钟,全程“赞赏”未指出严重逻辑错误,评分垫底;DeepSeek 表现中规中矩,找到了部分非关键问题;GLM-5.1 虽耗时最长,但准确识别出核心验证缺失等致命漏洞。测试指出,部分模型存在“过度讨好”用户的倾向,导致在严肃的技术验收中缺乏批判性思维。
原文链接:Linux.do
评论前必须登录!
立即登录 注册