OpenAI 近日发布博文,宣布正式弃用 SWE-bench Verified 基准,揭露了当前 AI 编程评估体系的两大致命隐患。首先是严重的数据污染,由于测试题源自 GitHub 开源仓库,导致这些代码也被用于模型训练,使得 GPT-5.2、Claude Opus 4.5 等顶尖模型能像“开卷考试”一样凭记忆直接输出标准答案。其次是测试设计缺陷,审计显示 59.4% 的题目存在设计漏洞。在更严谨、更难“作弊”的 SWE-bench Pro 上,模型分数直接腰斩。这一事件警示业界:盲目迷信 AI 跑分极其危险,现有的高分神话可能只是“过拟合”的假象。
原文链接:V2EX 分享发现









评论前必须登录!
立即登录 注册