中山大学与阿里联合实测:AI编程“零回归率”普遍低于25%,Claude仅勉强及格

中山大学与阿里巴巴集团联合进行了一项大规模AI代码生成能力测试。研究团队从GitHub选取了100个真实Python项目样本,针对20个主流大模型进行了评估,消耗超过100亿token。测试核心关注“零回归率”(即修改代码时不破坏原有功能的能力)。结果显示,大多数模型的该指标低于25%,即便是表现最佳的Claude Opus也仅刚超过50%。这表明当前AI在处理复杂系统维护时存在明显短板,容易生成难以维护的“屎山”代码,其能力上限在很大程度上受限于软件架构的设计质量。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册