根据 Marginlab.ai 针对 SWE-Bench-Pro 的性能追踪数据,Anthropic 旗舰模型 Claude Opus 在过去 30 天内出现了统计显著的性能退化。数据显示其代码生成与解决复杂问题的能力有所下滑。这一现象引发了社区广泛讨论,甚至有用户指出,近期切换至国产模型 Kimi 时体验差异缩小,侧面印证了头部大模型“智商”不稳定的问题,引发行业对模型退化及护城河缩水的担忧。
原文链接:Linux.do
根据 Marginlab.ai 针对 SWE-Bench-Pro 的性能追踪数据,Anthropic 旗舰模型 Claude Opus 在过去 30 天内出现了统计显著的性能退化。数据显示其代码生成与解决复杂问题的能力有所下滑。这一现象引发了社区广泛讨论,甚至有用户指出,近期切换至国产模型 Kimi 时体验差异缩小,侧面印证了头部大模型“智商”不稳定的问题,引发行业对模型退化及护城河缩水的担忧。
原文链接:Linux.do
评论前必须登录!
立即登录 注册