文章基于METR数据质疑LLM的实际进步,指出虽然模型通过测试的能力在提升,但以“代码可合并率”为衡量标准时,自2025年初以来其编程能力几乎没有改善。通过Brier分数分析表明,描述为“恒定不变”的模型比线性增长更符合实际数据。作者警示,尽管近期有关于Anthropic和Google新模型进步的传闻,但缺乏严谨数据支持,行业需警惕炒作与实际表现之间的巨大落差。
原文链接:Hacker News
文章基于METR数据质疑LLM的实际进步,指出虽然模型通过测试的能力在提升,但以“代码可合并率”为衡量标准时,自2025年初以来其编程能力几乎没有改善。通过Brier分数分析表明,描述为“恒定不变”的模型比线性增长更符合实际数据。作者警示,尽管近期有关于Anthropic和Google新模型进步的传闻,但缺乏严谨数据支持,行业需警惕炒作与实际表现之间的巨大落差。
原文链接:Hacker News
评论前必须登录!
立即登录 注册