Meta FAIR联合斯坦福等机构发布了全新编程基准ProgramBench,旨在重新定义AI编程评估方式,考核模型是否具备从零构建真实软件系统的“工程智能”。不同于传统的补全函数或修复Bug,该测试要求模型仅依据文档重建ffmpeg、SQLite等知名软件。结果显示,所有主流AI模型的完成率均为0%。尽管Claude Opus系列表现相对较好,但模型普遍倾向于生成臃肿的单文件代码,缺乏人类工程师的模块化架构能力。这项研究表明,AI在代码生成上虽有突破,但跨越代码与真实软件工程之间的鸿沟仍需时日。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册