当前AI行业普遍存在“跑分高、体验差”的怪象。文章揭露了两大行业潜规则:一是模型专门针对测试集训练以获取虚高分数,二是使用全精度模型刷榜,却在API服务中仅提供性能缩水的量化版本。相比之下,月之暗面(Kimi)的K-2及K-2.5模型直接基于用户实际使用的INT4量化版进行评测,真正做到了基准数据与用户体验的“所见即所得”。这一对比揭示了评测机制的水分,也提醒用户不应盲目迷信跑分,亲自实测才是检验模型能力的最佳标准。
原文链接:Linux.do
当前AI行业普遍存在“跑分高、体验差”的怪象。文章揭露了两大行业潜规则:一是模型专门针对测试集训练以获取虚高分数,二是使用全精度模型刷榜,却在API服务中仅提供性能缩水的量化版本。相比之下,月之暗面(Kimi)的K-2及K-2.5模型直接基于用户实际使用的INT4量化版进行评测,真正做到了基准数据与用户体验的“所见即所得”。这一对比揭示了评测机制的水分,也提醒用户不应盲目迷信跑分,亲自实测才是检验模型能力的最佳标准。
原文链接:Linux.do
评论前必须登录!
立即登录 注册