北航开源Code2Bench:动态评测终结LLM“刷分”乱象,代码大模型迎来严苛大考

针对代码大模型评测中常见的“刷分”与数据泄露问题,北京航空航天大学团队开源了动态评测基准Code2Bench。该框架通过“来源扩展”和“严格度扩展”双轮驱动,构建了动态演进的测试集,迫使模型展示真实的代码生成能力而非单纯的记忆能力。目前该项目已投稿ICLR 2026并在GitHub上线,这标志着AI代码评测从静态拼杀迈向了动态实战阶段,为行业筛选具备真正工程落地能力的模型提供了更可靠的标尺。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册