AI基准测试现罗生门:GPT-5.4跑分在Kimi与DeepSeek报告中为何迥异?

社区发现,在Kimi K2.6和DeepSeek-v4的技术报告中,针对同一标杆模型GPT-5.4的Terminal Bench 2.0跑分存在显著差异,数值分别为65.4和75.1,而同期对比的Gemini和Claude分数在两份报告中却保持一致。这一反常现象引发了外界对测试环境、提示词设置是否统一的强烈质疑。在“模型军备竞赛”日益激烈的当下,这种数据“打架”不仅暴露了AI行业缺乏统一、严格的评测基准标准,更引发了业界关于“刷榜”和数据真实性的深度担忧。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册