阿里巴巴进行了一项极具挑战性的AI软件工程实验,测试AI智能体在长达233天(约8个月)的时间里维护100个代码库的能力。实验结果令人咋舌:绝大多数AI模型在长期迭代中表现糟糕,75%的模型导致代码质量持续退化,最终将原本能运行的系统搞崩。唯独Claude Opus展现出强大的稳定性,保持了一半以上的零退化率。这项研究揭示了当前AI编程技术的致命短板:缺乏长期记忆和对项目全局上下文的理解能力,导致AI在长期维护场景下不仅难以如臂使指,反而可能成为技术负债。
原文链接:Linux.do
阿里巴巴进行了一项极具挑战性的AI软件工程实验,测试AI智能体在长达233天(约8个月)的时间里维护100个代码库的能力。实验结果令人咋舌:绝大多数AI模型在长期迭代中表现糟糕,75%的模型导致代码质量持续退化,最终将原本能运行的系统搞崩。唯独Claude Opus展现出强大的稳定性,保持了一半以上的零退化率。这项研究揭示了当前AI编程技术的致命短板:缺乏长期记忆和对项目全局上下文的理解能力,导致AI在长期维护场景下不仅难以如臂使指,反而可能成为技术负债。
原文链接:Linux.do
评论前必须登录!
立即登录 注册