V2EX网友分享了疑似Anthropic内部新模型’Mythos’的测试数据,其在SWE-bench系列基准测试中表现惊人,多项指标大幅超越现有的Claude Opus 4.6。数据显示,Mythos在SWE-bench Pro上得分77.8%,远超Opus的53.4%;在SWE-bench Verified上更是达到93.9%。这一性能飞跃表明AI在解决真实GitHub问题上的能力已接近或达到专家级,引发了关于程序员职业被替代风险的激烈讨论。
原文链接:V2EX 分享发现
V2EX网友分享了疑似Anthropic内部新模型’Mythos’的测试数据,其在SWE-bench系列基准测试中表现惊人,多项指标大幅超越现有的Claude Opus 4.6。数据显示,Mythos在SWE-bench Pro上得分77.8%,远超Opus的53.4%;在SWE-bench Verified上更是达到93.9%。这一性能飞跃表明AI在解决真实GitHub问题上的能力已接近或达到专家级,引发了关于程序员职业被替代风险的激烈讨论。
原文链接:V2EX 分享发现
评论前必须登录!
立即登录 注册