0%完成率!Meta发布新基准ProgramBench,揭露AI只会写代码不懂做工程

Meta FAIR联合斯坦福等机构发布了全新编程基准ProgramBench,旨在重新定义AI编程评估方式,考核模型是否具备从零构建真实软件系统的“工程智能”。不同于传统的补全函数或修复Bug,该测试要求模型仅依据文档重建ffmpeg、SQLite等知名软件。结果显示,所有主流AI模型的完成率均为0%。尽管Claude Opus系列表现相对较好,但模型普遍倾向于生成臃肿的单文件代码,缺乏人类工程师的模块化架构能力。这项研究表明,AI在代码生成上虽有突破,但跨越代码与真实软件工程之间的鸿沟仍需时日。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册