OpenAI承认基准严重“注水”:弃用SWE-bench Verified,AI编程高分全是背答案?

OpenAI 近日发布博文,宣布正式弃用 SWE-bench Verified 基准,揭露了当前 AI 编程评估体系的两大致命隐患。首先是严重的数据污染,由于测试题源自 GitHub 开源仓库,导致这些代码也被用于模型训练,使得 GPT-5.2、Claude Opus 4.5 等顶尖模型能像“开卷考试”一样凭记忆直接输出标准答案。其次是测试设计缺陷,审计显示 59.4% 的题目存在设计漏洞。在更严谨、更难“作弊”的 SWE-bench Pro 上,模型分数直接腰斩。这一事件警示业界:盲目迷信 AI 跑分极其危险,现有的高分神话可能只是“过拟合”的假象。

原文链接:V2EX 分享发现

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册