用户质疑Claude模型能力倒退:为降成本或采用蒸馏技术并缩减参数量

近日,科技社区Linux.do上有开发者用户指出,Anthropic旗下的Claude Opus大模型出现了明显的性能退步现象。该用户反馈称,目前的模型不仅逻辑能力(“智商”)似乎有所下降,回答中甚至出现了模仿GPT风格的“口癖”,且被怀疑直接使用了Qwen(通义千问)和DeepSeek(深度求索)的数据进行“蒸馏”。帖子分析认为,这一变化的核心原因可能在于Anthropic难以长期承担巨量参数(如5T至20T)模型的训练与推理成本。推测Anthropic从4.7版本开始,为了在控制成本的同时维持竞争力,尝试将模型容量缩减至2T至3T参数量,试图以更小的规模与DeepSeek-v4-pro(约1.4T)等高性价比模型抗衡。这一讨论反映了市场对头部大模型厂商在商业化压力下可能牺牲模型质量的担忧。

事件分析

此事件折射出当前大模型行业在追求极致性能与控制商业成本之间的深层矛盾。从技术维度审视,所谓的“模型降智”或“倒退”通常源于训练策略的妥协,例如为了降低推理成本而缩小模型规模,或者在使用合成数据进行知识蒸馏时引入了来源模型的特征(如被指出的GPT口癖)。DeepSeek等高性价比模型的出现打破了原有的参数军备竞赛,迫使行业重新评估Scaling Law的经济边界。如果头部厂商确开始通过蒸馏开源模型或削减参数来维持利润率,这标志着AI行业已从单纯的技术堆量转向“成本-效果”的精细化运营阶段,但同时也带来了模型同质化与创新能力停滞的风险。

💡 核心观点:当Scaling撞上成本墙,大模型厂商为维持利润率,或将被迫通过蒸馏技术和缩减参数寻求“性价比”的生存之道。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册