SWE-CI基准发布:填补SWE-bench空白,评估AI Agent在CI环境下的真实代码维护能力

尽管大型语言模型(LLM)驱动的Agent在SWE-bench等基准测试中展现了强大的静态Bug修复能力,但成熟软件的实际开发往往依赖于复杂的需求变更和长期的功能迭代,这是传统的静态、单次评估模式所无法覆盖的。为了解决这一脱节问题,本文提出了SWE-CI基准。它旨在通过模拟真实的持续集成(CI)环境,全面评估Agent在维护代码库方面的能力,从而填补了当前AI编程评估与真实软件工程流程之间的空白。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册