Anthropic神秘新模型基准测试曝光:代码能力大幅碾压Opus,编程自动化或迎奇点

V2EX网友分享了疑似Anthropic内部新模型’Mythos’的测试数据,其在SWE-bench系列基准测试中表现惊人,多项指标大幅超越现有的Claude Opus 4.6。数据显示,Mythos在SWE-bench Pro上得分77.8%,远超Opus的53.4%;在SWE-bench Verified上更是达到93.9%。这一性能飞跃表明AI在解决真实GitHub问题上的能力已接近或达到专家级,引发了关于程序员职业被替代风险的激烈讨论。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册