针对近期关于测评造假的质疑,MiniMax团队正式发布回应。团队坚决否认存在数据造假或刻意压低竞品Claude Opus分数的行为,并承认竞品在Terminal-Bench 2.0上的表现确实优于自身。针对榜单分数差异巨大的争议,MiniMax指出该基准测试高度依赖评测环境配置,通过堆砌资源可显著提升分数,但这并不代表模型真实能力的提升。团队以GLM-4.7在不同环境下的分数差异为例,强调不应通过“刷环境”来追求虚高排名,主张应与官方标准对齐,还原模型真实性能。
原文链接:Linux.do
针对近期关于测评造假的质疑,MiniMax团队正式发布回应。团队坚决否认存在数据造假或刻意压低竞品Claude Opus分数的行为,并承认竞品在Terminal-Bench 2.0上的表现确实优于自身。针对榜单分数差异巨大的争议,MiniMax指出该基准测试高度依赖评测环境配置,通过堆砌资源可显著提升分数,但这并不代表模型真实能力的提升。团队以GLM-4.7在不同环境下的分数差异为例,强调不应通过“刷环境”来追求虚高排名,主张应与官方标准对齐,还原模型真实性能。
原文链接:Linux.do
评论前必须登录!
立即登录 注册