对抗数据“刷题”污染:开源框架 Req-2-Rank 重新定义 LLM 编码能力评测

针对当前大语言模型编码评测中普遍存在的训练集泄漏和数据污染问题,开源社区推出了全新的评测框架“Req-2-Rank”。该项目摒弃了传统的固定题库模式,转而采用 LLM 动态生成编程需求的策略,从根本上杜绝了模型针对特定数据集“背诵答案”的可能性。此外,为了减少评审偏差,Req-2-Rank 引入了“多模型陪审团(LLM-as-a-Judge)”机制,通过交叉验证和置信区间分析确保结果的公正性。项目支持本地部署并计划建立社区驱动的动态排行榜,目前正处于开发后期并寻求社区协助,旨在为行业提供更真实、更具参考价值的 AI 编程能力基准。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册