大模型遭遇“能力高原”?数据显示编程能力已停滞超一年

文章基于METR数据质疑LLM的实际进步,指出虽然模型通过测试的能力在提升,但以“代码可合并率”为衡量标准时,自2025年初以来其编程能力几乎没有改善。通过Brier分数分析表明,描述为“恒定不变”的模型比线性增长更符合实际数据。作者警示,尽管近期有关于Anthropic和Google新模型进步的传闻,但缺乏严谨数据支持,行业需警惕炒作与实际表现之间的巨大落差。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册