随着大模型频繁更新,用户常怀疑模型变“笨”或受到更多限制。该项目通过可视化图表记录了各大 AI 模型的 ELO 评分历史,旨在揭露潜在的“暗中削弱”现象。文章指出,模型更新可能引入过度审查、过度量化以节省算力或行为退化。此外,项目还区分了 API 原始性能与 Web 界面的差异,解释了为何消费者端体验到的“降级”有时无法在基准测试中体现,为用户提供了评估模型真实表现的重要视角。
原文链接:Hacker News
随着大模型频繁更新,用户常怀疑模型变“笨”或受到更多限制。该项目通过可视化图表记录了各大 AI 模型的 ELO 评分历史,旨在揭露潜在的“暗中削弱”现象。文章指出,模型更新可能引入过度审查、过度量化以节省算力或行为退化。此外,项目还区分了 API 原始性能与 Web 界面的差异,解释了为何消费者端体验到的“降级”有时无法在基准测试中体现,为用户提供了评估模型真实表现的重要视角。
原文链接:Hacker News
评论前必须登录!
立即登录 注册